Спроба купити слона через інтернет або як працюють пошукові системи, HTML, XML, DHTML, Інтернет-технології, статті

Важко уявити сьогодні Інтернет без інформаційно-пошукових систем (ІПС). ІПС це стартова точка для всіх користувачів Інтернет. Коли користувачеві потрібно знайти сайт певної тематики, можна зайти на веб сайт ІПС ввести пару ключових слів і через соті долі секунди пошукова система видасть результати, які дивно сильно підходять запиту користувача.
Ось і доводиться дивуватися, як це відбувається, адже обсяги Інтернету – терабайти інформації, а потрібна інформація знаходиться за долі секунди через ІПС. На даний момент жоден суперкомп’ютер не зможе домогтися таких результатів без застосування високо інтелектуальних технологій.
Спробуємо відповісти на питання: як пошукові системи добиваються такої ефективності?



Архітектура ІПС

Класична ІПС складається з трьох частин:



  1. web павук (робот, агент).
  2. Індексна база.
  3. Пошуковий механізм (алгоритм).

web павук

web павук (робот, агент) – це програма, яка працює на декількох комп’ютерах підключених до мережі Інтернет, вона слідує за гіперпосиланнями (лазить по мережі) з веб сторінок і викачує всі знайдені файли. Тобто програма викачує весь проглянутий Інтернет.

На перший погляд все просто. Але це далеко не так. По-перше, веб павуком може керувати власник сайту. Досить зберегти в кореневу директорію сайту спеціальний файл robots.txt. У цьому файлі на спеціальному мовою описані команди для веб павуків (що індексувати, як індексувати, що пропустити і т.д.). Це необхідно, в першу чергу, для приховування приватної інформації від пошукової системи. Були випадки, коли через ІПС google при введенні запиту “номери кредитних карток” виводилася приватна інформація. Після чого були навіть судові розгляди.

Більше того, такі павуки вміють обходити рекламні трюки з просування сайтів. В internet існують “популярні запити” тобто слова та словосполучення, які використовують при пошуку найчастіше. Наприклад: “Завантажити музику”, “10000 $ за день”. І ось існує такий прийом для підвищення популярності сайту – “білим по білому” пишуть “популярні запити”, таким чином, сайт може бути присвячений одній тематиці, а для його реклами використовують слова зовсім не пов’язані з основним змістом сайту. Веб роботи дуже суворо ставляться до таких обманів і не вносять такі сайти в базу.

Також веб роботи приймають через веб сайт заявки на індексацію щойно створеного сайту. На нові веб сайти ніхто не посилається, і прийти рекурсивно по посиланнях інших сайтів можна.

Індексатор

Інша частина ІПС – це індексатор. Його завдання обробляти “скачаний Інтернет”. Це більш складна система. Вона витягує всі слова з викачаних документів, і складає в певну індексну базу (індексні файли). Для кожного слова витягується інформація про те, як це слово розташоване на веб сторінці:



  1. Позиція слова в тексті сторінки.
  2. Кількість входжень слова в сторінці.
  3. Колір і шрифт, який використовується для оформлення слова.

Витягнуті слова заносяться в спеціальні словники (файли певного типу) при цьому словники можуть бути для декількох мов. При занесенні до словника часто відтинають закінчення і суфікси для більш ефективного зберігання інформації. Але це знижує точність пошуку. Словники є частиною індексу.

Словники в свою чергу пов’язані своїми індефікаторамі з індефікаторамі веб сторінок (вони присвоюються при внесенні). Будь-якому слову зі словника відповідає набір doc_id-документів, в яких це слово зустрічається. Роботою по постійному формуванню інверсного індексу займаються сортувальники.

 

Рис. 1. Структура інверсного індексу (word_id – ідентифікатор слова; ndocs – кількість документів з цим словом; doc_id – ідентифікатор документа; n_hits – частота, з якою слово зустрічається в документі)

Алгоритм пошуку

Спробуємо купити слона через пошукову систему. Чому слона?! Побутову або комп’ютерну техніку знайти і купити легко. А ось для покупки екзотичних товарів можна скористатися ІПС.

Отже, нехай від користувача надійшов запит знайти сторінки з фразою “я хочу купити слона” і при цьому у користувача є бажання купити слона. Але перед тим, як обробити запит на пошук, пошукова система робить ряд кроків:



  1. Перевіряє орфографію запиту. Іноді, в процесі швидкого набору тексту робляться описки. Новітні системи можуть знаходити помилки в словах (як ms word) і пропонувати ввести свій правильний варіант.
  2. Також, слід зазначити, що відбувається генерація схожих за змістом слів (синонімів) і різних відмінкових форм. На запит купити слона будуть, також шукатися “продати слона”, “продаж слонів”. Це істотно розширить межі пошуку. Для цього використовується спеціальні морфоаналізатори. Існує два типи морфоаналізаторов: імовірнісні і вероятнстно-словникові. Останні більш якісні, тому що оброблене слово додатково перевіряється за словником.
  3. Також, запит перекладається на інші мови. Можливо, у нас (в Білорусії) не продаються слони, тоді можна подивитися пропозиції інших країн.
  4. Стоп слова (займенники, прийменники). Останнім часом не використовується. Раніше це робилося для економії обчислювальних ресурсів. У нашому запиті стоп словом було б “я”.

І тільки після цього йде запит на пошук. Програма, яка формує результати пошуку, подивиться в словник, знайде там word_id для слів “хочу”, “купити”, “слона” і всіх схожих, і сформує запит до бази даних.

В результаті ми отримаємо сотні тисяч невпорядкованих результатів. У цих документах буде опис слонів, казки, оповідання все що завгодно і лише декілька буде результатів у тему про продаж слонів. Таким чином, результати потрібно впорядкувати.

І тут спрацьовують алгоритми для визначення порядку виведення результатів пошуку. За підбір оптимального алгоритму зараз працюють тисячі фірм з усього світу.

Кожному результату присвоюється оцінка, яка обчислюється за нижче наведеними критеріями:

1) Кількість входжень. Зрозуміло, що чим більше буде зустрічатися шукане слово в сторінці, тим більше ймовірність, що ця потрібна сторінка.

2) Відстань між словами. Воно повинно бути мінімальною.

3) page rank. Це число характеризує якість матеріалу. При цьому ця якість визначається власниками сайтів.

Розрахункова формула, опублікована С. Бріном і Л. Пейджем, виглядає наступним чином:

 

де d – емпірично підібраний коефіцієнт (d = 0.85); Т1 … tn – сторінки, що посилаються на даний документ; С (tn) … С (tn) – загальна кількість посилань, що ведуть зовні зі сторінок Т1 … tn

Власники своїх сайтів ставлять посилання, як правило, на цікаві сайти. Тобто вони оцінюють його і в разі позитивної оцінки поставлять на нього посилання.

4) Яким шрифтом виділено слова. У специфікації html є рівні шрифтів, як в ms word. Чим вище рівень, тим результат повинен краще відповідати запиту. Якби я продавав слона, то я б створив сторінку, де великими літерами вгорі написав оголошення про продаж, а нижче умова.

5) Мова користувача. Зрозуміло, що на перші місця повинні потрапити результати з сайтів білоруського походження. Але якщо в Білорусі не продають слонів, то виводяться пропозиції закордонних продавців.

6) Вік сайту. Вважається, чим більше сайт живе в мережі, тим більше досвід у його власника і тим якісний матеріал або пропозиції. Я слона не купив би у сайту, якщо у нього немає хорошої репутації і списку клієнтів.

Важливо, що без добре-спланованих web павука і індексатора не можливо якісно упорядкувати результати пошуку, тому що критерії для упорядкування зберігаються при перших двох етапах. Тобто всі компоненти ІПС міцно пов’язані один з одним.

Як бачимо, параметрів множини і тут стоїть основне завдання – збалансувати їх. Тобто правильно оцінити кожен критерій оцінки. Результат може отримати дуже високу оцінку за одним критерієм, за іншими нульову. Такі результати вважаються не якісними.

Слід зазначити, що для утримання свіх позицій найбільші розробники до відмінного пошуку надають інші сервіси:



  1. Контекстна реклама. Можна у власників ІПС купити покази реклами при певних запитах. Наприклад, ми отримаємо рекламу про продаж слонів при нашому запиті. Аналітики підрахували, що це найефективніший вид реклами.
  2. google пропонує унікальний сервіс – google кеш. У нього дублюються “весь інтеренет”. Це дуже корисно, якщо сайт зник раптово або тимчасово не доступний з технічних причин.
  3. Також система google визначає звідки клієнт і налаштовує інтерфейс під його мову.

Висновок:

В результаті на наш запит про купівлю слона ми отримаємо масу додаткової інформації:



  1. Рекламу фірм з продажу слонів.
  2. Дізнаємося місця, де продаються слони в нашій країні.
  3. Знайдемо пропозиції про продаж з інших країн.
  4. Дізнаємося ціну на слонів.
  5. Отримаємо поради для покупців слонів.
  6. Опис видів слонів, чим харчуються і як за ними доглядати
  7. Адреси зоопарків.

Проаналізувавши даний результат, можна зробити висновок, про те, наскільки корисні високо-інтелектуальні технології при роботі з величезними обсягами інформації. Додам, що інтелектуальні технології, також, активно використовуються в сучасних антивірусах (віруси) і спам-фільтрах.


Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*