Назначение, синтаксис и настройка файла robots.txt

Maria Kholodnitska 04.11.2020 на прочтение 5 минут

robots.txt - служебный файл в котором прописываются правила выполнения сканирования файлов сайта различными роботами. Корректная настройка robots.txt влияет на индексацию сайта, и есть неотъемлемой частью хорошей оптимизации.

Назначение и основные функции

Главная задача файла - указать рекомендации касательно индексации страниц поисковым ботам. Если файл корректно добавлен и настроен, в первую очередь перед началом индексации робот осуществляет поиск файла robots.txt, проверяется наполнение и дальше соответственно следует или не следует его правилам.

При необходимости здесь можно скрыть от выдачи кондиционную информацию или же просто файлы которые не нужно видеть простым пользователям и роботам, сюда можно отнести:

формы регистрации/входа и другие личные данные клиентов;
дубликаты, недоработанные, не уникальные страницы и другой мусор;
служебные файлы;
админ.часть ресурса;
все формы и страницы выполнения заказа, сюда же относится корзина;
функционал сортировки, поиска и фильтрации на сайте.

В тот же момент не исключается несоблюдение указанных инструкций отдельными сервисами, так как они по-сути являются рекомендациями, а не прямыми указаниями, но все же популярные боты Google, Yandex и т.д. следуют им.

С помощью robots.txt задаются следующие настройки:

рекомендации по индексированию поисковым роботам;
правила на запрещение индексации перечисленных файлов, директорий и т.д.;
установка желаемого интервала между загрузками страниц поисковыми ботами.

Очень часто встречаются случаи, когда поисковые боты создают нагрузку на сайт количеством запросов. Тогда сервер просто не успевает их обрабатывать, так как обычно боты сканируют все страницы подряд со стандартным интервалом. Файл robots.txt помогает решить этот вопрос.

Требования к созданию и размещению файла

Обратите внимание: если файл не отвечает установленным правилам, поисковый робот не будет его учитывать вовсе и сканировать все страницы по общему алгоритму. Ниже рассмотрим требования к созданию и наполнению файла:

формат файла .txt с кодировкой UTF-8
размер файла не превышает 500 КБ
название с robots (нижний регистр)
для одного сайта наличие только одного файла robots.txt
файл должен размещен в корневом каталоге сайта и быть доступен по адресу https://domain_name/robots.txt, при этом имеет положительный HTTP-ответ от сервера

Проверить на соответствие и корректность заполнение есть возможным через инструменты веб-мастеров поисковых систем, там же вы можете найти справку о работе конкретных ботов. Необходимо учитывать, что некоторые боты могут по разному реагировать на синтаксис файла и иметь свои требования.

Директивы и синтаксис

Важный момент: каждую директиву файла нужно задавать с новой строки, синтаксис директив и их значения нечувствительный к регистру. Значение каждой директиве прописывается через двоеточие.

User-agent - обязательная к указанию директива, задается название поискового бота для которого предназначенные правила ниже.

Список известных поисковых роботов:

Googlebot — основной робот Google;
Google - подразумевает всех ботов системы Google;
Googlebot-Image — робот индексации картинок;
Googlebot-Video — робот индексации видео;
Googlebot-News - для новостей;
Googlebot-Mobile - робот индексации мобильной версии;
YandexBot — основной индексирующий робот Yandex;
Yandex - подразумевает всех ботов системы Yandex;
YandexImages — робот индексации картинок;
YandexVideo - .робот индексации видео;
YandexNews - для новостей;
YandexImageResizer - робот индексации мобильных сервисов.

Проверить принадлежность и список всех роботов для определенных поисковых систем можно на их оф.страницах, например для Google - здесь

Рассмотрим несколько практических примеров.

Пример 1: будут указываться правила для бота GoogleBot.

User-agent: GoogleBot

Пример 2: указать инструкции сразу для всех ботов.

User-agent: *

Disallow - директива для запрета индексации определенных страниц.

Allow - разрешает индексацию указанных страниц

Пример 3: Запретим выполнять индексацию каталога admin для всех ботов:

User-agent: *
Disallow: /admin/

Через директиву Sitemap можно указать путь к файлу структуры сайта. В значение директивы необходимо прописать прямой URL-адрес карты сайта.

Sitemap: https://hyperhost.ua/sitemap.xml

Crawl-delay задает интервал (в секундах) между загрузкой страниц ботами (учитывается поисковыми роботами Яндекса, Mail.Ru и Bing). При повышении нагрузки, через этот параметр можно откорректировать скорость и тем самым снизить нагрузку на сервер.

Crawl-delay: 6

Директива Host уже неактуальная и не считывается роботами.

Директива Clean-param позволяет запретить индексации страницы сайта, которые формируются с участью динамических параметров. Такие страницы зачастую содержат не уникальный/похожий контент. Тем самым поисковые системы будут отмечать эти страницы как дубли, что в результате может привести к понижению позиций в выдачи.