Даже если страницы, файлы или документы закрыты в файле robots.txt, они могут попадать в поисковую выдачу. Почему это происходит и как этого избежать, рассказал Платон Щукин в своем блоге.
Индексирующий робот Яндекса строго следует все правилам, прописанным в robots.txt. Однако чтобы робот правильно понимал все предписания, необходимо соблюдать ряд условий:
Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.
Чтобы директивы из robots.txt были учтены роботом, при его обращении к файлу должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.
Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.
Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки «User-agent: Yandex».
Если робот встретит конфликтующие директивы, например:
User-agent: Yandex
Allow: /
Disallow: *
то он выберет разрешающее правило, которое позволит страницам участвовать в поиске.
Самостоятельно проверить корректность настроек файла robots.txt можно с помощью Анализатора robots.txt . Также Платон отметил, что после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.
Друзья, теперь вы можете поддержать SEOnews https://pay.cloudtips.ru/p/8828f772
Ваши донаты помогут нам развивать издание и дальше радовать вас полезным контентом.
Спасибо, поржал. В статье под заголовком "почему robots.txt не работает", нам рассказали, как он работает. За последние 15 лет эти правила не менялись, зачем это здесь.
В google выдается url закрытый в robots.txt для индексации, когда копируешь ссылку и вводишь в поиск, показывается страница сайта, только без описания.