Почему robots.txt не работает

27 Февраля 2015
в 16:27
5 7255

Даже если страницы, файлы или документы закрыты в файле robots.txt, они могут попадать в поисковую выдачу. Почему это происходит и как этого избежать, рассказал Платон Щукин в своем блоге.

Индексирующий робот Яндекса строго следует все правилам, прописанным в robots.txt. Однако чтобы робот правильно понимал все предписания, необходимо соблюдать ряд условий:

  • Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.
  • Чтобы директивы из robots.txt были учтены роботом, при его обращении к файлу должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.
  • Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.
  • Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки «User-agent: Yandex».
  • Если робот встретит конфликтующие директивы, например:
    User-agent: Yandex
    Allow: /
    Disallow: *

    то он выберет разрешающее правило, которое позволит страницам участвовать в поиске.

Самостоятельно проверить корректность настроек файла robots.txt можно с помощью Анализатора robots.txt . Также Платон отметил, что после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.

1.jpg

5 комментариев
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:
  • Denny Smirnov
    2
    комментария
    0
    читателей
    Denny Smirnov
    больше года назад
    Спасибо, поржал. В статье под заголовком "почему robots.txt не работает", нам рассказали, как он работает. За последние 15 лет эти правила не менялись, зачем это здесь.
    -
    1
    +
    Ответить
    Поделиться
  • Гость
    больше года назад
    Вот так советы, непомерно полезно просто!
    -
    3
    +
    Ответить
    Поделиться
    • Гость
      Гость
      больше года назад
      И не говори,  обязательно в закладки!
      -
      0
      +
      Ответить
      Поделиться
      • Сергей Сажин
        1
        комментарий
        0
        читателей
        Сергей Сажин
        Гость
        больше года назад
        В google выдается url закрытый в robots.txt для индексации, когда копируешь ссылку и вводишь в поиск, показывается страница сайта, только без описания.
        -
        0
        +
        Ответить
        Поделиться
        • quTG
          0
          комментариев
          0
          читателей
          quTG
          Сергей Сажин
          больше года назад
          Если Google проиндексировал страницу, она уже никуда не денется. А в выдаче будет мусор без описания. Не совсем ясно, зачем
          -
          0
          +
          Ответить
          Поделиться

Отправьте отзыв!
X | Закрыть