Призначення, синтаксис і налаштування файлу robots.tx

автор Maria Kholodnitska

robots.txt - службовий файл, в якому прописуються правила виконання сканування файлів сайту різними роботами. Коректне налаштування robots.txt впливає на індексацію сайту і є невід'ємною частиною гарної оптимізації.

Призначення і основні функції

Головне завдання файлу - вказати рекомендації щодо індексації сторінок пошуковим роботам. Якщо файл коректно доданий і налаштований, в першу чергу перед початком індексації робот здійснює пошук файлу robots.txt, перевіряється наповнення і далі, відповідно, дотримується або не дотримується його правилами.

При необхідності тут можна приховати від видачі кондиційну інформацію або ж просто файли, які не потрібно бачити простим користувачам та роботам, сюди можна віднести:

форми реєстрації/входу та інші особисті дані клієнтів;
дублікати, недопрацьовані, не унікальні сторінки та інше "сміття";
службові файли;
адмін.частину ресурсу;
всі форми і сторінки виконання замовлення, сюди ж відноситься кошик;
функціонал сортування, пошуку і фільтрації на сайті.

У той же момент не виключається недотримання вказаних інструкцій окремими сервісами, так як вони по суті є рекомендаціями, а не прямими вказівками, але все ж популярні боти Google, Yandex і т.д. слідують їм.

З допомогою robots.txt задаються наступні налаштування:

рекомендації по індексуванню пошуковим роботам;
правила на заборону індексації перерахованих файлів, директорій і т.д .;
установка бажаного інтервалу між завантаженням сторінок пошуковими ботами.

Дуже часто зустрічаються випадки, коли пошукові боти створюють навантаження на сайт кількістю запитів. Тоді сервер просто не встигає їх обробляти, так як зазвичай боти сканують всі сторінки поспіль зі стандартним інтервалом. Файл robots.txt допомагає вирішити це питання.

Вимоги до створення і розміщення файлу

Зверніть увагу: якщо файл не відповідає встановленим правилам, пошуковий робот не буде його враховувати зовсім, і сканувати всі сторінки за загальним алгоритмом. Нижче розглянемо вимоги до створення та наповнення файлу:

формат файлу .txt з кодуванням UTF-8
розмір файлу не перевищує 500 КБ
назва з robots (нижній регістр)
для одного сайту наявність тільки одного файлу robots.txt
файл повинен розміщуватися в кореневому каталозі сайту і бути доступним за адресою https: //domain_name/robots.txt, при цьому має позитивний HTTP-відповідь від сервера.

Перевірити на відповідність і правильність заповнення є можливим через інструменти веб-майстрів пошукових систем, там же ви можете знайти довідку про роботу конкретних ботів. Необхідно враховувати, що деякі боти можуть по різному реагувати на синтаксис файлу і мати свої вимоги.

Директиви і синтаксис

Важливий момент: кожну директиву файлу потрібно задавати з нового рядка, синтаксис директив і їх значення нечутливий до регістру. Значення кожній директиві прописується через двокрапку.

User-agent - обов'язкова до вказівки директива, задається назва пошукового бота, для якого призначені правила нижче.

Список відомих пошукових роботів:

Googlebot - основний робот Google;
Google - мається на увазі всіх ботів системи Google;
Googlebot-Image - робот індексації картинок;
Googlebot-Video - робот індексації відео;
Googlebot-News - для новин;
Googlebot-Mobile - робот індексації мобільної версії;
YandexBot - основний,що індексує, робот Yandex;
Yandex - мається на увазі всіх ботів системи Yandex;
YandexImages - робот індексації картинок;
YandexVideo - .робот індексації відео;
YandexNews - для новин;
YandexImageResizer - робот індексації мобільних сервісів.

Перевірити приналежність і список всіх роботів для певних пошукових систем можна на їх оф.сторінках, наприклад для Google - тут

Розглянемо кілька практичних прикладів.

Приклад 1: зазначатимуться правила для бота GoogleBot.

User-agent: GoogleBot

Приклад 2: вказати інструкції відразу для всіх пошукових роботів.

User-agent: *

Disallow - директива для заборони індексації певних сторінок.

Allow - дозволяє індексацію зазначених сторінок.

Приклад 3: Заборонимо виконувати індексацію каталогу admin для всіх ботів:

User-agent: *
Disallow: / admin /

Через директиву Sitemap можна вказати шлях до файлу структури сайту. В значення директиви необхідно прописати пряму URL-адресу карти сайту.

Sitemap: https://hyperhost.ua/sitemap.xml

Crawl-delay задає інтервал (в секундах) між завантаженням сторінок ботами (враховується пошуковими роботами Яндекса, Mail.Ru і Bing). При підвищенні навантаження, через цей параметр можна відкоригувати швидкість і, тим самим, знизити навантаження на сервер.

Crawl-delay: 6

Директива Host вже неактуальна і не зчитується роботами.

Директива Clean-param дозволяє заборонити індексації сторінки сайту, які формуються з долею динамічних параметрів. Такі сторінки часто містять не унікальний/схожий контент. Тим самим, пошукові системи будуть відзначати ці сторінки, як дублі, що в результаті може привести до зниження позицій в видачі.