Даже если страницы, файлы или документы закрыты в файле robots.txt, они могут попадать в поисковую выдачу. Почему это происходит и как этого избежать, рассказал Платон Щукин в своем блоге.
Индексирующий робот Яндекса строго следует все правилам, прописанным в robots.txt. Однако чтобы робот правильно понимал все предписания, необходимо соблюдать ряд условий:
- Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.
- Чтобы директивы из robots.txt были учтены роботом, при его обращении к файлу должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.
- Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.
- Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки «User-agent: Yandex».
- Если робот встретит конфликтующие директивы, например:
User-agent: Yandex
Allow: /
Disallow: *
то он выберет разрешающее правило, которое позволит страницам участвовать в поиске.
Самостоятельно проверить корректность настроек файла robots.txt можно с помощью Анализатора robots.txt . Также Платон отметил, что после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.