Дары Яндекса - директива Crawl-delay и поддержка GZIP

Логотип Яндекс Яндекс предоставил вебмастерам возможность управлять таймаутом, с которым поисковый робот закачивает страницы с сервера (Crawl-delay).
О необходимости этой директивы вебмастера говорили уже давно, сложности возникают, когда сервер сильно нагружен и не успевает отрабатывать запросы на закачку. А директива Crawl-delay позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.

В 2006 году особенно остро эта тема обсуждалась в связи с ныне почившей поисковой системой Вебальта, которая в стремлении быстро проиндексировать максимум информации повысила загрузку каналов хостинг-провайдеров и вызвала недовольство владельцев сайтов. Тогда же часть вебмастеров говорила об игнорировании роботом Вебальты файла robots.txt.

Директива Crawl-delay, поясняет аналитик-проектировщик компании Ingate Дмитрий Орлов, решает такую проблему: «Если сервер сильно загружен, а робот пытается утянуть все и сразу, возможны ошибки и, как следствие, проблемы с индексацией. С помощью новой директивы можно заставить работ многократно заходить на сайт с заданным интервалом, в результате чего вероятность корректной обработки сайта повышается».

Команда Яндекса поясняет, как именно нужно добавлять директиву. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, Crawl-delay необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow").

Поисковый робот Яндекса поддерживает дробные значения Crawl-delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.

Вы можете посмотреть примеры, которые приводятся на Я.Вебмастере:

User-agent: Yandex
Crawl-delay: 2 # задает таймут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймут в 4.5 секунды

Помимо директивы Crawl-delay, Яндекс сообщает о поддержке скачивания сжатого контента (GZIP). Это позволит уменьшить объем трафика. Как поясняет Сергей Стружков, руководитель отдела ресурсов компании Ingate, GZIP – это «полезная штука для сайтов на хорошем с сервере с большими объемами информации. Яндекс явно хочет "кушать" больше:)
Кроме того, вебмастера Украины, Белоруссии и других стран, куда "стучится" Яндекс, теперь смогут сэкономить на плате за трафик, поскольку его объем можно будет уменьшить»

Теперь поисковый робот Яндекса при каждом запросе документа говорит: "Accept-Encoding: gzip,deflate".

Таким образом, если вебмастр настроил свой веб-сервер, он снизит объем передаваемого трафика между ним и роботом Яндекса.

Правда, команда поисковика предупреждает, что передача контента в сжатом виде увеличивает нагрузку на CPU сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5.