Google хочет сделать Robots Exclusion Protocol (REP) официальным стандартом. Для этого вместе с авторами протокола, вебмастерами и представителями других поисковых систем компания задокументировала использование REP в современном интернете и подала заявку в Инженерный совет Интернета (EITF, Internet Engineering Task Force).
Robots Exclusion Protocol (REP) – стандарт ограничения доступа сканерам поисковых систем к содержимому сайта с помощью файла robots.txt. Протокол существует уже более 25 лет.
Документ, направленный в EITF, отражает 20 лет использование robots.txt, учитывая работу Googlebot, других сканеров и более полумиллиарда сайтов, использующих REP.
Новая версия документа не меняет правила, заложенные в robots.txt в 1994 году, а скорее устанавливает значения для ранее не зафиксированных сценариев парсинга, а также приводит его в соответствие с требованиями современного интернета. А именно:
В документе Google также представил обновленную расширенную форму Бэкуса – Наура для улучшенного определения синтаксиса robots.txt.
Также в рамках инициативы Google выложил исходный код парсера robots.txt в открытый доступ. В частности, на GitHub можно найти библиотеку C++, отдельных отрывки кода которой были написаны еще в 90-х. Протестировать код можно здесь.
В компании утверждают, что из-за того, что REP так и не стал официальным стандартом, разработчики все эти годы интерпретировали его по-разному.
Цель Google – сделать так, чтобы вебмастера смогли сосредоточиться на создании хороших сайтов, не волнуясь о том, что поисковый робот неправильно просканирует сайт.
Напомним, на днях Google сделал mobile-first индексацией по умолчанию для всех новых доменов.
Источник: Блог Google