Яндекс предоставил вебмастерам возможность управлять таймаутом, с которым поисковый робот закачивает страницы с сервера (Crawl-delay).
О необходимости этой директивы вебмастера говорили уже давно, сложности возникают, когда сервер сильно нагружен и не успевает отрабатывать запросы на закачку. А директива Crawl-delay позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.
В 2006 году особенно остро эта тема обсуждалась в связи с ныне почившей поисковой системой Вебальта, которая в стремлении быстро проиндексировать максимум информации
Директива Crawl-delay, поясняет аналитик-проектировщик компании Ingate Дмитрий Орлов, решает такую проблему: «Если сервер сильно загружен, а робот пытается утянуть все и сразу, возможны ошибки и, как следствие, проблемы с индексацией. С помощью новой директивы можно заставить работ многократно заходить на сайт с заданным интервалом, в результате чего вероятность корректной обработки сайта повышается».
Команда Яндекса поясняет, как именно нужно добавлять директиву. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, Crawl-delay необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow").
Поисковый робот Яндекса поддерживает дробные значения Crawl-delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.
Вы можете посмотреть примеры, которые приводятся на Я.Вебмастере:
User-agent: Yandex
Crawl-delay: 2 # задает таймут в 2 секунды
User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймут в 4.5 секунды
Помимо директивы Crawl-delay, Яндекс сообщает о поддержке скачивания сжатого контента (GZIP). Это позволит уменьшить объем трафика. Как поясняет Сергей Стружков, руководитель отдела ресурсов компании
Кроме того, вебмастера Украины, Белоруссии и других стран, куда "стучится" Яндекс, теперь смогут сэкономить на плате за трафик, поскольку его объем можно будет уменьшить»
Теперь поисковый робот Яндекса при каждом запросе документа говорит: "Accept-Encoding: gzip,deflate".
Таким образом, если вебмастр настроил свой веб-сервер, он снизит объем передаваемого трафика между ним и роботом Яндекса.
Правда, команда поисковика предупреждает, что передача контента в сжатом виде увеличивает нагрузку на CPU сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616,