Оптимізація сайтів: robots.txt. Стандарт винятків для роботів (Standard for robot exclusion) (документація), Документація, Програмування, статті

Статус цього документа

Цей документ складаючи 30 липня 1994 року по матеріалам обговорень в телеконференції robots-request@nexor.co.uk (зараз конференція перенесена на WebCrawler. Подробиці див Robots pages at WebCrawler info.webcrawler.com/mak/projects/robots/) Між більшістю виробників пошукових роботів та іншими зацікавленими людьмі.Также ця тема відкрита для обговорення в телеконференції Technical World Wide Web www-talk@info.cern.ch Сей документ заснований на попередньому робочому проекті під такою ж назвою.

Цей документ не є офіційним або будь-чиїм корпоративним стандартом, і не гарантує того, що всі нинішні і майбутні пошукові роботи будуть використовувати його. Відповідно до нього більшість виробників роботів пропонує можливість захистити Веб-сервери від небажаного відвідування їх пошуковими роботами.

Останню версію цього документа можна знайти за адресою info.webcrawler.com/mak/projects/robots/robots.html


Введення

Пошукові роботи (wanderers, spiders) – це програми, які індексують веб-сторінки в мережі Internet.

У 1993 і 1994 роках з’ясувалося, що індексування роботами серверів часом відбувається проти бажання власників цих серверів. Зокрема, іноді робота роботів ускладнює роботу з сервером звичайних користувачів, іноді одні й ті ж файли індексуються кілька разів. В інших випадках роботи індексують не те, що треба, наприклад, дуже “глибокі” віртуальні директорії, тимчасову інформацію або CGI-скрипти. Цей стандарт покликаний вирішити подібні проблеми.


Призначення

Для того, щоб виключити відвідування сервера або його частин роботом необхідно створити на сервері файл, що містить інформацію для управління поведінкою пошукового робота. Цей файл повинен бути доступний за протоколу HTTP по локальному URL / robots.txt. Вміст цього файлу см. нижче.

Таке рішення було прийнято для того, щоб пошуковий робот міг знайти правила, що описують необхідні від нього дії, всього лише простим запитом одного файлу. Крім того файл / robots.txt легко створити на якому з існуючих Веб-серверів.


Вибір саме такого URL мотивований кількома критеріями:



Формат

Формат і семантика файлу / robots.txt наступні:

Файл повинен містити одну або кілька записів (records), розділених однією або кількома порожніми рядками (закінчуються CR, CR / NL або NL). Кожна запис повинен містити рядки (lines) в формі:


“<field>:<optional_space><value><optional_space>”.


Поле є регістронезавісімий.

Коментарі можуть бути включені в файл у звичайній для UNIX формі: символ # означає початок коментаря, кінець рядка – кінець коментар.


Запис повинен починатися з одного або декількох рядків User-Agent, слідом повинна бути одна або кілька рядків Disallow, формат яких наведений нижче. Нерозпізнані рядки ігноруються.


User-Agent



Disallow


Будь-який запис (record) повинна складатися хоча б з одного рядка (line) User-Agent і однієї – Disallow

Якщо файл / robots.txt порожній, або не відповідає заданому формату і семантиці, або його не існує, будь-який пошуковий робот буде працювати по своєму алгоритму.


Приклади


Приклад 1:

# robots.txt for http://www.site.com
User-Agent: *
Disallow: /cyberworld/map/ # this is an infinite virtual URL space
Disallow: /tmp/ # these will soon disappear

У прикладі 1 закривається від індексації вміст директорій / cyberworld / map / і / tmp /.


Приклад 2:

# robots.txt for http://www.site.com
User-Agent: *
Disallow: /cyberworld/map/ # this is an infinite virtual URL space
# Cybermapper knows where to go
User-Agent: cybermapper
Disallow:

У прикладі 2 закривається від індексації вміст директорії / cyberworld / map /, проте пошуковому роботу cybermapper все дозволено.


Приклад 3:

# robots.txt for http://www.site.com
User-Agent: *
Disallow: /

У прикладі 3 будь пошуковому роботу забороняється індексувати сервер.


Примітки перекладача

В даний час стандарт дещо змінився, наприклад, можна записувати в рядку User-Agent кілька імен роботів, розділених пробілами або табуляторами.


Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*