Стандарт винятків для роботів

Martijn Koster, переклад А. Алікберова

Статус цього документа

Цей документ складено 30 липня 1994 року по матеріалам
обговорень у телеконференції robots-request@nexor.co.uk (зараз конференція
перенесена на WebCrawler. Подробиці див Robots pages at WebCrawler info.webcrawler.com / mak / projects / robots /)
між більшістю виробників пошукових роботів та іншими зацікавленими
людьмі.Также ця тема відкрита для обговорення в телеконференції Technical
World Wide Web www-talk@info.cern.ch Цей документ грунтується на попередньому
робочому проекті під такою ж назвою.

Цей документ не є офіційною або будь-чиїм корпоративним
стандартом, і не гарантує того, що всі нинішні і майбутні пошукові
роботи будуть використовувати його. Відповідно до нього більшість виробників
роботів пропонує можливість захистити Веб-сервери від небажаного відвідування
їх пошуковими роботами.

Останню версію цього документу можна знайти за адресою

info.webcrawler.com/mak/projects/robots/robots.html

Введення

Пошукові роботи (wanderers, spiders) – це програми,
які індексують веб-сторінки в мережі Internet.

У 1993 і 1994 роках з'ясувалося, що індексування роботами
серверів часом відбувається проти бажання власників цих серверів. Зокрема,
іноді робота роботів ускладнює роботу з сервером звичайних користувачів,
іноді одні й ті ж файли індексуються кілька разів. В інших випадках
роботи індексують не те, що треба, наприклад, дуже "глибокі"
віртуальні директорії, тимчасову інформацію або CGI-скрипти. Цей стандарт
покликаний вирішити подібні проблеми.

Призначення

Для того, щоб виключити відвідування сервера або його частин
роботом необхідно створити на сервері файл, що містить інформацію для управління
поведінкою пошукового робота. Цей файл повинен бути доступний за протоколом
HTTP по локальному URL / robots.txt. Зміст цього файлу див. нижче.

Таке рішення було ухвалене для того, щоб пошуковий робот
міг знайти правила, що описують необхідні від нього дії, всього лише простим
запитом одного файлу. Крім того файл / robots.txt легко створити на будь-якому
з існуючих Веб-серверів.

Вибір саме такого URL мотивований кількома критеріями:

Формат

Формат і семантика файлу / robots.txt наступні:

Файл повинен містити одну або декілька записів (records),
розділених одним або декількома пустими рядками (що закінчуються CR,
CR / NL або NL). Кожна запис повинен містити рядки (lines) у формі:

"<field>: <optional_space> <value> <optional_space>".

Поле <field> є регістронезавісімим.

Коментарі можуть бути включені в файл у звичайній для UNIX
формі: символ # означає початок коментаря, кінець рядка – кінець коментаря.

Запис повинен починатися з одного або кількох рядків
User-Agent, слідом повинна бути одна або кілька рядків Disallow, формат
яких наведено нижче. Нерозпізнані рядки ігноруються.

User-Agent

Disallow

Будь-який запис (record) повинна складатися хоча б з однієї
рядка (line) User-Agent і одній – Disallow

Якщо файл / robots.txt порожній, або не відповідає заданому
формату та семантиці, або його не існує, будь-який пошуковий робот буде
працювати за своїм алгоритмом.

Приклади

Приклад 1:

# robots.txt for http://www.site.com

User-Agent: *

Disallow: / cyberworld / map / # this is an infinite virtual URL space

Disallow: /tmp/ # these will soon disappear

У прикладі 1 закривається від індексації вміст директорій
/ Cyberworld / map / і / tmp /.

Приклад 2:

# robots.txt for http://www.site.com

User-Agent: *

Disallow: / cyberworld / map / # this is an infinite virtual URL space

# Cybermapper knows where to go

User-Agent: cybermapper

Disallow:

У прикладі 2 закривається від індексації вміст директорії
/ Cyberworld / map /, проте пошуковому роботу cybermapper все дозволено.

Приклад 3:

# robots.txt for http://www.site.com

User-Agent: *

Disallow: /

У прикладі 3 будь-якому пошуковому роботу забороняється індексувати
сервер.

Примітки перекладача

В даний час стандарт дещо змінився, наприклад,
можна записувати у рядку User-Agent кілька імен роботів, розділених
пробілами або табуляторами.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*