Google решил сделать протокол REP для robots.txt официальным стандартом

Google хочет сделать Robots Exclusion Protocol (REP) официальным стандартом. Для этого вместе с авторами протокола, вебмастерами и представителями других поисковых систем компания задокументировала использование REP в современном интернете и подала заявку в Инженерный совет Интернета (EITF, Internet Engineering Task Force).

Robots Exclusion Protocol (REP) – стандарт ограничения доступа сканерам поисковых систем к содержимому сайта с помощью файла robots.txt. Протокол существует уже более 25 лет.

Документ, направленный в EITF, отражает 20 лет использование robots.txt, учитывая работу Googlebot, других сканеров и более полумиллиарда сайтов, использующих REP.

Новая версия документа не меняет правила, заложенные в robots.txt в 1994 году, а скорее устанавливает значения для ранее не зафиксированных сценариев парсинга, а также приводит его в соответствие с требованиями современного интернета. А именно:

Любой протокол передачи, работающий на URI (например, FTP или CoAP), может использовать robots.txt.
Разработчики должны будут парсить как минимум первые 500 кибибайтов robots.txt.
Максимальный период кэширования в 24 часа позволит разработчикам обновлять robots.txt в любой удобный момент без перегрузки сайта запросами от краулеров.
Если ранее доступный robots.txt становится недоступным, ранее заблокированные для краулеров страницы не будут сканироваться в течение достаточно длительного промежутка времени.

В документе Google также представил обновленную расширенную форму Бэкуса – Наура для улучшенного определения синтаксиса robots.txt.

Также в рамках инициативы Google выложил исходный код парсера robots.txt в открытый доступ. В частности, на GitHub можно найти библиотеку C++, отдельных отрывки кода которой были написаны еще в 90-х. Протестировать код можно здесь.

В компании утверждают, что из-за того, что REP так и не стал официальным стандартом, разработчики все эти годы интерпретировали его по-разному.

Цель Google – сделать так, чтобы вебмастера смогли сосредоточиться на создании хороших сайтов, не волнуясь о том, что поисковый робот неправильно просканирует сайт.

Напомним, на днях Google сделал mobile-first индексацией по умолчанию для всех новых доменов.

Источник: Блог Google