Основи вилучення знань з Internet, Різне, Інтернет-технології, статті

Андрій Щербина

Основною причиною зростання електронної комерції послужили простота і швидкість, з якими можна здійснювати покупки та інші операції через Internet. Особливо серйозні зміни зазнало спілкування з кінцевим користувачем – з’явилася і можливість персоніфікувати пропозиції продавця для кожного клієнта.

Витяг знань можна визначити як знаходження і аналіз корисної інформації. Дану область діяльності прийнято поділяти на дві частини: автоматичний пошук інформації в документах Мережі – Web content mining і виявлення та знищення інформації, що стосується роботи користувачів з сервером, – Web usage mining.

Зростання обсягу доступних через Internet даних, що зберігаються в слабо структурованому вигляді, сприяв появі автоматичних програмних засобів пошуку інформації та отримання даних про використання певних ресурсів. Виник цілий ряд інтелектуальних систем, основне завдання яких полягає в ефективному витягу знань з Internet.

У статті здійснено короткий огляд технологій, вживаних для збору інформації та вилучення знань з використання Internet.

Процес автоматичного вивчення характеристик доступу користувачів до серверів може включати вивчення найбільш популярних шляхів відвідування, знаходження асоціативних правил, кластеризацію і т.д. Для вирішення цих завдань можна використовувати накопичені Internet технічні документи. Організації збирають величезні обсяги інформації, автоматично створюваної серверами і осідає в журналах. Джерелами інформації є також посилальні журнали, в яких міститься інформація для кожної сторінки, на яку є посилання, журнали браузерів і реєстраційні або анкетні дані користувачів, зібрані CGI-сценаріями.

Основні споживачі систем категорії usage mining – організації, що торгують або надають послуги в Мережі. Головними завданнями для них є персоніфікація наповнення сторінок і оптимізація сайту з точки зору спрощення навігації [1]. Також подібні системи являють інтерес для провайдерів Internet і мережних адміністраторів. Основними областями застосування в цьому випадку є оптимізації роботи мережі, мінімізація трафіку і оптимізація надання послуг (наприклад, інтелектуальне кешування даних [2]).

Більшість традиційних систем моніторингу Мережі надають можливість фільтрації та отримання статистичної інформації про користувачів. Подібний інструментарій допомагає визначати кількість звернень до різних файлів і серверів, адреси окремих користувачів, при цьому такі системи розраховані на малий або обмежений потік даних і рідко надають можливості аналізу зв’язку між зверненнями до файлів і логікою їх розташування. Розглянемо інструменти, що дають аналітику більш повну інформацію.

Збір інформації

На якій ділянці взаємодії користувачів і серверів збирати статистичні дані? На сервері, на клієнті, на проміжних ділянках мережі?

Збір інформації на рівні сервера являє собою відбір інформації безпосередньо з журналів Web-сервера. Цей спосіб використовується найбільш часто, оскільки без зайвих накладних витрат можна отримати досить повну картину роботи користувачів з сервером. Крім того, це один з небагатьох методів, для якого вже існують заздалегідь накопичені дані. Дійсно, всі або майже всі сервери автоматично ведуть журналізацію; при цьому журнали, як правило, зберігаються роками. Розглянемо детально, яку саме інформацію надає журнал сервера, який відповідає вимогам стандарту Common Log Format (CLF).

Більшість сучасних Web-серверів (в тому числі, Apache або IIS) надають можливість адміністратору вибирати, які поля повинні включатися в журнал, а які – ні. Найпоширеніші з додаткових полів, які при додаванні до Common Log Format утворюють так званий Combined Log Format, такі: звернулася додаток; URL документа, з якого здійснено звернення; значення cookies.

У журналів сервера є і недоліки. Основним з них є неповнота інформації. Звернення до збережених на якомусь рівні сторінок, наприклад, у користувача в локальному кеші, не заносяться в журнал сервера, так само в журнали сервера не потрапляють дані, що пересилаються за допомогою методу POST. Альтернативний метод збору даних на самому сервері – аналіз на рівні пакетів. Таким чином можна аналізувати на рівні окремих запитів TCP / IP, але для накопичення таких даних, як правило, потрібно написання додаткових програм. На рівні сервера можна збирати дані запитів, отриманих через форми на сторінках або після виконання різних сценаріїв. Досить цікавим може бути аналіз виданих різним користувачам cookie; інформація про це також зберігається на сервері.

Заманливо збирати інформацію про відвідини на рівні клієнта. Один із способів – використання Java-програм, подгружаемих через сторінки цікавить нас сервера, а проте функціональність подібних програм обмежена, крім того, сам користувач за допомогою налаштувань свого браузера здатний виключити або обмежити можливість подібного збору інформації. Другим способом могло б стати внесення змін до програми для перегляду Мережі. Але слід розуміти, що вносити в журнал доведеться все відразу, оскільки якщо в майбутньому знадобиться збирати дані по якомусь новому параметру, то внести відповідні зміни в браузери всіх клієнтів буде майже неможливо. Також при такому підході виникають дві нерозв’язні проблеми: по-перше, як правило, ніхто не хоче, щоб його кроки протоколировались, а потім зібрані дані кудись відсилалися, а по-друге, мало хто стане оновлювати своє програмне забезпечення через потреб третьої сторони, яка здійснює збір даних. Таким чином, збір інформації на стороні клієнта більш будь-яких інших методів зачіпає проблему збереження недоторканності особистого життя, і поки такі методики мало застосовні. Тим не менш, на даний момент існує кілька систем, що використовують подібний підхід [3].

Аналіз даних проксі-сервера [4] може надати інформацію про характер перегляду Мережі анонімної групи користувачів використовують один проксі-сервер. У разі створення спеціалізованого програмного забезпечення для проксі-серверів можна домогтися деяких переваг в порівнянні зі збором на стороні сервера або клієнта. Вирішується проблема зі зниженням швидкодії сервера; крім того, досить просто можна здійснити підключення нового сайту до збору статистики або оновлення системи для взаємодії з новими версіями браузерів (не потрібне оновлення додатків клієнта).

Як альтернативу збору інформації на стороні сервера або шлюзу можна розглянути збір даних на вузлах мережі. По-перше, не завжди можливий доступ до журналів сервера, по-друге, не завжди дані, що збираються на сервері, релевантні до розв’язуваної задачі. Крім того, додавання на сервер будь-яких програмних засобів збору інформації, що цікавить може бути неможливо, або може просто уповільнити сервер, що вкрай небажано. Виходом може бути розміщення датчиків у вузлах мережі на підході до сервера. У такому випадку сервер розвантажується від зайвого програмного забезпечення. Очевидно, що робота ведеться на рівні протоколів і, як правило, збір йде на рівні пакетів TCP / IP.

Хорошим прикладом подібної системи служить Web Traffic Warehouse [5]. Творці системи виявили, що розташування збирача даних впливає на якість отримуваних результатів. Внаслідок асинхронного характеру передачі даних по Мережі вхідний та вихідний трафіки можуть проходити за різними фізичним каналам. Переглядаючи його в певній точці мережі, можна побачити тільки одну зі сторін діалогу. Щоб цього уникнути, система збирає дані безпосередньо на рівні додатків. В майбутньому планується використовувати більшу кількість датчиків в мережі. Тоді, отримуючи, скажімо, дані як від програми, так і від клієнта, можна отримувати додаткові параметри (такі, як втрата і затримка пакетів). Крім того, багато корельованих джерел можуть використовувати для виявлення точок втрат або затримок інформації.

Колекціонування всіх пакетів дозволяє отримати докладні дані про мережі – додаткова інформація витягується з журналів додатків (міжмережеві екрани, сервери та ін.) Інформація про стан мережі може бути отримана періодичним переглядом лічильників безпосередньо знаходяться на мережевих елементах, що мають SNMP-доступ до бази Management Information Base. Більш детальні дані можна знайти в полях даних, які підтримуються датчиками RMON, що розширює можливості зберігання даних більшості мережевих елементів. Поєднуючи безліч джерел даних, можна отримувати дуже детальну картину.

Слід зауважити, що незалежно від місця збору інформації, в повному потоці даних містяться паролі, приватна кореспонденція, тексти документів. Навіть IP-адреси джерела або одержувача в деяких випадках можуть бути полічені приватною інформацією, особливо з урахуванням того, що за адресою можна визначити комп’ютер, з якого була зроблена операція. Можна виключати з обробки подібні дані, але це призводить до втрат цінної інформації. Розробники повинні вибирати відповідний компроміс. Наприклад, бажано приховувати IP-адреси; при цьому є потреба визначати входження на один сайт з різних комп’ютерів, для чого необхідно здійснювати проекції від істинних до зашифрованих адресами.

Підготовка даних

На цьому етапі можуть виконуватися деякі прості інтеграційні завдання, наприклад, поєднання кількох журналів і відсів непотрібних для розв’язуваної задачі даних. Знайдені асоціації корисні тільки в тому випадку, якщо дані в журналі показують точну картину доступу користувачів до сайту, іноді видалення записів про файли з «неважливими» суфіксами (jpg, gif, map та ін) може істотно очистити записи. У багатьох випадках потрібно також очистити записи від невдалих запитів (наприклад, залишити тільки рядки, в яких відповідь сервера має код 200). Зазвичай також потрібно відсікати запити з боку різних автоматичних агентів (зокрема, це агенти пошукових систем, що служать для створення індексів сторінок і слів у внутрішніх базах даних, автоматичні верифікатори посилань і інструментарій для управління сайтом).

Схожа, але набагато більш складна проблема полягає у визначенні звернень, які не заносяться в журнал, механізми локального кешу або проксі-сервера спотворюють картину переміщень користувачів в Internet. Зараз для подолання цієї проблеми використовується метод cache bursting, проте він повністю нівелює переваги в швидкості від використання локального кеша. Методи боротьби з цією проблемою використовують топологію сайту і посилальні журнали, укупі з тимчасовою інформацією для виявлення пропущених посилань. Більш-менш точну картину переміщень користувача можна скласти, тільки якщо пропуски сторінок були поодинокими (наприклад, якщо клієнт використовував у своєму браузері перехід по журналу тому), в такому випадку можна доповнювати шлях користувача; ця проблема отримала назву «заповнення шляху» (path completion).

Після того як дані очищені, виникає задача розбиття журналу на різні сеанси різних користувачів. Для того щоб однозначним чином розрізняти звернення різних користувачів з розглянутих вище полів журналу можна використовувати IP-адресу, агент користувача та адресу викликав документа. Розглянемо три основних типи спірних ситуацій для ідентифікації різних користувачів.

A. Один IP-адрес/много користувачів. Дуже поширена ситуація, виникає при використанні провайдером проксі-сервера, крім цього, коли будь-якому користувачеві при установці зв’язку з провайдером виділяється випадковий адресу (дуже характерно при зв’язку по телефонній лінії), два різних користувача можуть отримати однакову адресу.

B. Багато IP-адресов/одін користувач. Також досить поширений випадок, виникає при динамічному виділенні адрес провайдером. В деяких випадках (широко відомий приклад – America Online) нову адресу виділяється користувачеві при кожному новому зверненні до сторінки. Для випадків A або B можна виділяти різних користувачів, грунтуючись на типі браузера, і відстежувати шлях користувача за один сеанс, знаходячи для кожного документа викликав його, і таким чином виділяти окремі сеанси, від входу на сайт до сторінки, з якої не було переходу всередині сайту.

C. Один користувач використовує різні браузери. В такому випадку, якщо IP-адреса не дає достовірних даних, можна скористатися лише двома методами, описаними нижче, при цьому треба врахувати, що файли cookie будуть далеко не завжди коректно працювати.

У будь-якому зі згаданих випадків, якщо для ідентифікації не вистачає даних журналу, можна використовувати файли cookie та унікальну реєстрацію користувачів. У кожного з цих методів є недоліки: користувач може видалити файли, що знаходяться на його комп’ютері, а обов’язкова реєстрація, крім очевидних недоліків, не обов’язково отримує точні дані.

Інша важлива задача – ідентифікація сеансу доступу. Перед тим як буде виконаний небудь аналіз використання, необхідно розділити дані на логічні частини, що представляють різні сеанси або транзакції. Сеанс користувача – весь набір використаних сторінкових посилань, зроблених ним за одне відвідування сайту. Проблема визначення сеансів схожа з визначенням окремих користувачів.

Найпопулярнішим методом вирішення цієї проблеми є виділення сеансів використання за тимчасовим принципом, коли два послідовних поводження з однієї адреси вважаються належать одному сеансу, якщо перерва між цими зверненнями не перевищив заданий поріг [3,6]. Другим широко використовуваним способом є підтримка «per session cookies» (на стороні користувача зберігаються дані, тільки від першого візиту на сторінку до виключення браузера; аналіз цих даних дозволяє відрізнити одне відвідування користувача від іншого).

Транзакції відрізняються від користувацького сеансу тим, що в них можуть входити від однієї до всіх сторінок маршруту користувача за одну або декілька сеансів, залежно від заданої умови. Основна задача розбиття роботи користувача на транзакції полягає у виділенні груп семантично близьких звернень одного користувача, тому для розбиття можуть використовуватися і операція розбиття, і злиття. Таким чином, транзакція може бути менше або більше, ніж один сеанс. Опишемо три різних підходи [7] до розбиття на транзакції.

A. Ідентифікація транзакцій з урахуванням тривалості відвідувань. Даний метод грунтується на тому, що час, проведений користувачем на сторінці, залежить від важливості цієї сторінки для користувача. (Статистичні дані показують, що кількість сторінок, де користувач провів певний час, назад експоненціально залежить від цього часу.) Таким чином, якщо вибрати деяку кордон часу, то можна відокремити сторінки, які цікаві користувачеві від інших. Цей метод пропонує формулу для обчислення такого інтервалу, в залежності від розподілу відвідувань сторінок з різними інтервалами часу. Кінцем транзакції служить перша з сторінок, час відвідування якої перевищила вибраний поріг, а початком – перша сторінка після кінця попередньої.

B. Ідентифікація транзакцій методом максимальної посилальної глибини. У цьому випадку нова транзакція починається з першого посилання вперед (перехід на сторінку, яку даний користувач ще не відвідував). Кінець транзакції – досягнення найбільшої глибини, тобто якщо користувач повернувся на вже відвідану сторінку.

C. Розбиття транзакцій з тимчасового принципом – Перегукується з методом виділення сеансів, всі відвідування діляться на частини тривалістю не перевищують заданий поріг. Незалежне застосування такого розбиття малооправдана, цей метод можна застосовувати після одного з семантично орієнтованих методів, для відсікання вироджених транзакцій, за допомогою злиття транзакцій, менших порогового значення.

Статистичний аналіз

Як правило, за даними журналу сервера підраховуються найпопулярніша сторінка, найбільша кількість відвідувачів за день, тиждень, місяць, також можуть бути виділені сторінки, звернення до яких викликали найбільша кількість помилок. Можна застосовувати статистичний аналіз до вже очищеного і розбитому на транзакції журналу. В цьому випадку функціональна корисність різко зростає, з’являється можливість підраховувати статистичні дані для тривалості перебування на різних сторінках або довжини транзакції. Звичайно, збір статистики не дає необхідної для методів вилучення знань глибини, але будь-яка система прийняття рішень надає користувачеві такого роду інформацію, як потенційно цікаву і корисну. В якості зручного інтерфейсу аналізу одержуваних даних, часто використовується OLAP [5, 8].

Методи пошуку схем

Після ідентифікації окремої транзакції аналітик може застосувати один з методів вилучення знань зі схеми доступу: аналіз шляху, знаходження асоціативних правил і послідовностей зразків, кластеризація або класифікація.

Для аналізу шляху використовуються різні види графів, так як граф представляє деяке відношення, визначене на сторінці (або іншому об’єкті). Найпоширенішим є побудова графа, відповідне фізичної структурі сервера, при цьому сторінки є вузлами, а посилання між ними – спрямованими гілками. Також можуть бути використані графи, засновані на типах сторінок, коли ребра представляють збігу між сторінками, або де ребрам відповідають кількості користувачів, які переходять з однієї сторінки на іншу. Велика частина досліджень, присвячених знаходженню частих шляхів або послідовностей посилань, проведена для графів відображають фізичну структуру. За допомогою цієї методики можна визначати найбільш відвідувані шляху в мережі.

У зв’язку з тим, що подібні бази транзакцій містять безліч інформації, зазвичай технології пошуку орієнтуються тільки на записи, доступ до яких здійснювався не менше певного числа разів. Виявлення цих правил для організацій, зайнятих в електронній комерції, може допомогти в розробці ефективного маркетингу. Також ця інформації допомагає при поліпшенні організації мережевого простору.

Знаходження послідовностей зразків – виявлення зв’язку між різними операціями, що відбуваються протягом одного тимчасового інтервалу. У серверних журналах транзакцій кожне відвідування клієнта записується з деяким інтервалом часу. Дослідження часових відносин між різними даними, може мати наприклад наступні результати: 30% клієнтів після відвідування досліджуваного сервера, протягом 10 днів пройшли на ньому реєстрацію.

Інший важливий тип зв’язаності даних, також виявляється за допомогою цієї методики – подібні тимчасові послідовності. Наприклад, нам може бути цікаво знайти загальні характеристики у клієнтів, які зверталися до одного файлу в певний період часу, або часовий інтервал, протягом якого цікавить нас файл найчастіше використовується.

Виявлення класифікаційних правил дозволяє створити опис записів, що належать до певної групи у зв’язку з спільністю атрибутів. Цей опис потім використовується для класифікації знову додаються записів. При вивченні використання мережі можна розробляти опис для клієнтів, які зверталися до певних файлів, використовуючи наявні для цих клієнтів демографічну інформацію або схеми доступу.

Кластерний аналіз дозволяє згрупувати клієнтів або дані, які мають подібні характеристики. Кластеризація інформації про клієнта з даними в журналах може дозволити розробити і здійснити ряд маркетингових стратегій.

Кластеризація транзакцій

Основною областю застосування для кластер-аналізу в Web usage mining, є персоніфікація наповнення сторінок. Користувач розподіляється в одну з категорій, після чого відповідним чином змінюється виведена для даного користувача інформація [9]. Ще однією традиційною для кластеризації областю застосування є підтримка прийняття рішень [5].

В [10] кластеризація використовується для автоматичної модифікації сторінок. У даній роботі особливий інтерес представляє вибір об’єкта кластеризації. Її автори пропонують не проводити розбиття по транзакціях. Відмова від традиційного підходу пояснюється труднощами з вибором метрики, а також занадто великою кількістю транзакцій, щодо загального числа сторінок. У цій роботі використовується метод ARHP. На першому етапі за допомогою алгоритму знаходження асоціативних правил виділяються групи сторінок, до яких часто звертаються протягом однієї транзакції. На другому отримані групи проектуються на ребра графа, і до графа застосовується алгоритм кластеризації. При запиті користувача, система розміщує поточну транзакцію в один із заздалегідь створених кластерів. В залежності від властивостей даного кластера формується результуючий список посилань, цікавих користувачеві, який виводиться на сторінку, що переглядається.

При застосуванні кластеризації завжди потрібно вирішити дві різні проблеми: вибір метрики і вибір алгоритму. Основною проблемою при кластеризації транзакцій є вибір метрики. По ряду причин класичні евклідові метрики виявляються неефективними.

Можна спробувати порівнювати сеанси користувачів наступним чином. Оскільки кількість сторінок обмежена, представимо всі сесії як вектора однакової довжини, де довжина – загальна кількість аналізованих сторінок, а значеннями елементів буде Істина, якщо така сторінка входить в сеанси – Брехня, якщо не входить. Використовуючи відповідні методи кластеризації, при такому підході можна домогтися досить точних результатів (Наприклад, алгоритми ROCK або CACTUS). Але при такому підході втрачається кількість звернень до одній сторінці за час однієї транзакції, також не враховується послідовність відвідування сторінок.

Другою проблемою, пов’язаною з вибором метрики, є нормалізація транзакцій. Досить часто доводиться порівнювати між собою транзакції з двох-трьох сторінок, і транзакції довжиною понад 25 переходів. На даний момент робіт, присвячених цій проблемі, немає. Слід зазначити, що проблема нормалізації даних відпадає при застосуванні деяких спеціальних метрик. Дуже перспективно виглядає можливість вивчення застосовності для кластеризації транзакцій метрики n-грамов, але на даний момент таких робіт також немає.

Аналіз отриманих схем

OLAP є потужним інструментом для стратегічного аналізу баз даних. Показано, що аналіз, необхідний при добуванні знань з мережі, схожий з проведеним у сховищах даних. Хорошим прикладом застосування OLAP в даній області є система WebLogMiner [10]. Робота даної системи нагадує багаторівневу базу даних.

На першому рівні запису журналів очищаються і поміщаються в реляційні таблиці. На другому рівні будується куб даних на підставі обраних атрибутів. В якості атрибутів можуть бути обрані: користувач, розташування користувача, тип ресурсу, час, витрачений на перегляд ресурсу, дата, відповідь сервера і т.д. На третьому – використовується механізм OLAP, для вивчення отриманих даних експертами. Для вивчення можна запитувати різні зрізи куба даних. Наприклад, можна отримати статистику по всіх запитах, за запитами від одного домену або від одного типу браузера. Можна отримувати інформацію з різних користувальницьким сесіям або тимчасовим відрізкам. На четвертому рівні використовуються методи data mining для передбачення, класифікації та знаходження цікавих закономірностей. Цей етап може надавати інформацію, яку в силу різних причин не вдалося виявити на попередньому.

Візуалізація є потужним інструментом для полегшення розуміння різного роду завдань. Ще в 1996 році була розроблена система WebViz для візуалізації зразків мережевого доступу. Система використовує парадигму Web-пути, при якій набори записів в журналі використовуються для витягання послідовних наборів проходження мережі. WebViz дозволяє аналітику обробити частину мережі, відфільтрувавши невідповідну інформацію за різними критеріями, як-то, по іменам серверів або по локальних адресами сторінок. При цьому мережа представлена ​​як спрямований, циклічний граф, в якому вузлам відповідають сторінки і ребрах – переходи користувачів по посиланнях зі сторінки на сторінку.

Висновок

Методи отримання знань з використання Internet, на даний момент, стають все більш популярними. Хорошим показником може служити збільшене число наукових публікацій за рік; при цьому, наприклад, методи content mining, навпаки отримують менше уваги, ніж раніше. На даний момент добре працюють систем дозволяють проводити точний аналіз Мережі, практично немає, а існуючі погано масштабованих і мало ефективні. При цьому у зв’язку з різким зростанням числа користувачів Мережі, потреба ринку в подібних інформаційних системах вкрай велика, але реалізації заважає відсутність готових теоретичних рішень. Немає остаточного рішення для цілого ряду задач: ідентифікації користувачів, збереження конфіденційності, вибору метрики для простору транзакцій і т.д.

Література


  1. Alexandrin Popescul, Lyle Ungar, David Pennock, Steve Lawrence. “Probabilistic Models for Unified Collaborative and Content-Based Recommendation in Sparse-Data Environments”, 17th Conference on Uncertainty in Artificial Intelligence, 2001, August 2-5.

  2. Francesco Bonchi, Fosca Giannotti, Giuseppe Manco, Mirco Nanni, Dino Pedreschi, Chiara Renso, Salvatore Ruggieri. “Data Mining for Intelligent Web Caching”, 2001 December.

  3. Cyrus Shahabi, Farnoush Banaei-Kashani. “A Framework for Efficient and Anonymous Web Usage Mining Based on Client-Side Tracking”, Department of Computer Science, Integrated Media Systems Center, University of Southern California, USA, 2001.

  4. Jason I. Hong, James A. Landay. “WebQuilt: A Framework for Capturing and Visualizing the Web Experience”, Berkley, USA, 2001

  5. Chung-Min Chen, Munir Cochinwala, Claudio Petrone, Marc Pucci, Sunil Samtani, Patrizia Santa, Marco Mesiti. “Internet traffic Warehouse”, Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, May 16-18, 2000, Dallas, Texas, USA.

  6. Birgit Hay, Geert Wets, Koen Vanhoof. “Clustering navigational patterns on a website using a Sequence alignment method”, Limburg University center, Belgium. 2001.

  7. Robert Cooley, Bamshad Mobasher, Jaideep Srivastava. “Data Preparation for Mining World Wide Web Browsing Patterns”, Knowledge and Information Systems. 1, 1999.

  8. Osmar R. Zaiane, Man Xin, Jiawei Han. “Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs”, Advances in Digital Libraries, 1998.

  9. B. Mobasher, H. Dai, T. Luo, Y. Sun, J. Zhu. “Combining web usage and content mining for more effective personalization”, In Proc. of the Intl. Conf. on ECommerce and Web Technologies (ECWeb), 2000.

  10. B. Mobasher, R. Cooley, J. Srivastava. “Creating adaptive web sites through usage-based clustering of urls”, In IEEE Knowledge and Data Engineering Workshop (KDEX’99), 1999.

Андрій Щербина (Andrei.A.Scherbina@techsell.ru) – Аспірант ІСП РАН (Москва).


CLF: мінімальний набір полів, що зберігаються в журналі


***

Ідея очищення полягає у видаленні з розгляду всіх тих об’єктів, до яких користувач прямо не звертався при своїй подорожі по сайту, сюди також потрапляють файли сценаріїв або таблиці стилів. Іноді, користувач явно запитує графічні файли, для таких випадків в програмі очищає журнал повинна бути передбачена модифікація фільтра.

***

Техніка виявлення асоціацій зазвичай застосовується до баз даних транзакцій, де кожній транзакції відповідають декілька полів. В такому випадку завдання полягає у виявленні всіх взаємозв’язків між наявністю одних або відсутністю інших полів в транзакції. У термінах використання мережі це означає виявлення зв’язків між зверненнями до різних файлів від одного клієнта, наприклад, 80% клієнтів, що запитали файл sql.rar, також запросили sql.r00; 30% клієнтів, які зверталися за цим файлом, пройшли реєстрацію.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*