Пошукові роботи. Керуємо індексацією сайту.

Коротко про пошукових роботах.

Всі пошукові системи для пошуку та індексації використовують програми-роботи. Їх ще називають павуками. Робот, потрапивши на сайт, збирає з нього всю інформацію. Найважливішу (на його думку) інформацію робот запам'ятовує. Далі робот аналізує посилання і йде за ними. Він може знайти посилання на інший ресурс і піти по ній, покинувши ваш сайт.

Важливо вміти правильно управляти роботом. Тільки так можна змусити павука пройтися по кожній сторінці вашого сайту. Для керування роботами служать файл robots.txt, метадані та теги <noindex>..</noindex>. Слід зауважити, що деякі роботи (наприклад роботи Рамблера) ігнорують ключові слова (keywords) І описи (description).

Подивимося, що роботам цікаво.

У першу чергу пошукові механізми перевіряють заголовок документа (<title>). Далі, як правило, в порядку значимості роботи аналізують такі теги:

Особливе значення для роботів має тег <A>…</A>. У ньому роботи можуть обробляти атрибут title. Також павуки можуть заглядати в альтернативний текст зображень <img src=”…” alt=”альтернативний текст”>.

Файл robots.txt

Потрапивши на сайт, робот насамперед перевіряє файл robots.txt. Якщо робот виявляє цей документ, то всі подальші дій він буде виконувати відповідно до вимог викладеними там. Якщо файлу robots.txt немає, робот буде аналізувати всі, Що потрапить в його загребущі руки.

Роботи шукають файл robots.txt> Тільки в кореневому каталозі сайту. Розміщувати файл robots.txt в декількох каталогах не має сенсу, тому що павуки будуть ігнорувати зайві копії. Назва файлу robots.txt повинно бути набрано маленькими літерами, Оскільки імена інтернет-ресурсів (URI) Чутливі до регістру.

Структура файлу robots.txt наступна:

Файл robots.txt складається з груп інструкцій. Кожна з них починається з рядка User-agent: ім'я робота, Яка вказує, для яких роботів відноситься така інструкція Disallow:. Інструкція User-agent: * буде поширюватися на всіх роботів.

Інструкцій Disallow: У кожній групі може бути кілька (Обов'язково повинна бути хоча б одна).

Розглянемо таку інструкцію: "Disallow: /folder/"Вона заборонить павуку відвідування папки folder. А інструкція "Disallow: /folder"Заборонить відвідування всіх сторінок, повне ім'я яких починається з"/folder", Наприклад /folder.php, /folder/page1.html, folder5.html. Слід зауважити, для того, щоб керівництво Disallow: Забороняла що-небудь, зазначений у ній шлях повинен починатися з "/". Інструкція, яка містить символ '*' або який-небудь інший символ, який не може бути присутнім в імені файлу, теж не буде нічого забороняти.

На жаль, поки немає інструкції, яка б вказувала на файли і директорії, які треба проіндексувати. З цієї причини доводиться вказувати список всього, що заборонено для індексації. Єдиний розумний вихід з цієї ситуації – добре продумати структуру сайту.

Залишилося сказати, що у файлі robots.txt порожні рядки дозволено вставляти тільки між групами (перед User-agent), А коментарі повинні починатися з символу "#".

META-теги "Robots"

Тег теж керує індексацією сайту, але на відміну від файлу robots.txt він керує індексацією однієї web-сторінки.

Для запису інструкцій з індексації, використовується поле content=”…”.

Наведемо список всіх можливих інструкцій:

За замовчуванням приймається значення <meta name=”Robots” content=”INDEX, FOLLOW”>.

У полі content дублювання інструкцій, наявність суперечливих інструкцій і т.п. не допускається; зокрема, значення поле content не може мати вигляд "none, nofollow".

Тег <noindex>…</noindex>

Тег <noindex>…</noindex> використовується для заборони індексування і переходу по посиланнях. Його дія починається з і закінчується .

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*