Google: PDF может быть первым в SERP

Поисковым роботам часто приходиться сталкиваться с PDF-файлами, электронными таблицами и презентациями. О том, как такие страницы индексируются, Google рассказал в своем блоге.

Оказалось, что поисковик может индексировать текст из документов PDF, написанный на любом языке. Главное, чтобы файл не был зашифрован и защищен паролем. Google способен извлекать текст с помощью OCR алгоритмов, даже если он представлен в виде изображения. Картинки в PDF-файлах не индексируются. Что касается ссылок, то они в PDF документах обрабатываются аналогично ссылкам в HTML.

Никакого приоритета HTML-файлы при ранжировании не имеют. PDF может занимать высокие позиции в результатах поиска. Все, что нужно для этого - качественный контент и ссылки с других ресурсов. Если вебмастера или владельцы сайтов не хотят, чтобы файлы PDF появлялись в результатах поиска, Google рекомендует использовать X-Robots-Tag: noindex в заголовке HTTP.

Для отображения заголовка в выдаче используются метаданные title в файле и текст анкоров из ссылок, указывающих на PDF. Поэтому, чтобы дать алгоритмам сигнал о правильном названии, рекомендуется обновить оба элемента.