Почему robots.txt не работает

Даже если страницы, файлы или документы закрыты в файле robots.txt, они могут попадать в поисковую выдачу. Почему это происходит и как этого избежать, рассказал Платон Щукин в своем блоге.

Индексирующий робот Яндекса строго следует все правилам, прописанным в robots.txt. Однако чтобы робот правильно понимал все предписания, необходимо соблюдать ряд условий:

  • Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.
  • Чтобы директивы из robots.txt были учтены роботом, при его обращении к файлу должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.
  • Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.
  • Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки «User-agent: Yandex».
  • Если робот встретит конфликтующие директивы, например:
    User-agent: Yandex
    Allow: /
    Disallow: *

    то он выберет разрешающее правило, которое позволит страницам участвовать в поиске.

Самостоятельно проверить корректность настроек файла robots.txt можно с помощью Анализатора robots.txt . Также Платон отметил, что после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.

(Голосов: 5, Рейтинг: 5)