Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
Россия +7 (495) 139-20-33
27 Октября 2023 в 12:22

5 способов увидеть сайт глазами поисковика: анализируем скрытый контент и cloaking

Россия +7 (495) 139-20-33
3 25949
Подпишитесь на нас в Telegram
Юрий Никулин
Head of SEO ДИТ (mos.ru)

Как SEO-специалисту притвориться поисковым ботом и посмотреть любой сайт глазами Яндекса, Google или другого поисковика? Разберем 5 простых инструментов, которые помогают определить скрытый контент или клоакинг.

P. S.: 90% сайтов в интернете имеют эту проблему!

Спойлер

Как упомянул выше, у 90% сайтов есть проблемы со скрытым контентом для поисковых ботов. И нет, они не всегда связаны с серверным рендерингом и javascript на странице. Кто хочет быстрее узнать, это user-agent подмена данных, о которой я упомяну во всех 5 способах.

Что это вам даст?

  1. Вы не только сможете смотреть как поисковый бот, но поймете, как различные сайты используют «черные» методы оптимизации и как избегают санкций поисковых систем. Самое важное, что вы вынесете из этой статьи, это методы отслеживания скрытого контента.
  2. Конечно же, вы поймете, какой контент у вас не видят боты, и сможете его проиндексировать, тем самым увеличите поисковый трафик.

Банальные способы проверки

Конечно, многие используют для проверки инструмент «Проверка ответа сервера в Яндекс Вебмастер» или «Проверка для оптимизации мобильных устройств от Google». Но что делать, если сайт под базовой авторизацией и поисковых ботов туда просто не пустит? Ниже разбираемся подробно…

User-agent поисковиков

Чтобы воспользоваться 5-ю методами ниже, вы должны понимать, что такое user-agent, для чего они нужны и какие user-agent бывают у поисковиков.

Что такое user-agent?

Для чего нужен user-agent?

Какие бывают user-agent?

Это строка, которая обычно отправляется браузером во время запроса к серверу. Она содержит информацию о клиентском программном обеспечении, операционной системе, версии и других деталях, которые помогают серверу определить, как отвечать на запрос.

Он помогает серверу понять, кто вы, и показать контент с учетом ваших предпочтений, ограничений и другой сопутствующей информации. Грубо говоря, помогает улучшить пользовательский опыт.

Они бывают разные, но как SEO-специалистов нас интересует мобильный и десктопный user-agent. То есть, как поисковые боты смотрят на наши сайты с мобильных устройств и десктопа. Вот тут можно посмотреть документация по user-agent Яндекса и user-agent Google.

Резюмируя, user-agent это просто «бездушная строка», которую ваш браузер либо браузер поисковых ботов отправляет на сервер запрашиваемого сайта. А этот сайт уже отдает контент, который считает нужным. Тем самым, зная user-agent поисковиков, мы можем притворяться ими и смотреть HTML-код под видом Яндекса или Google.

Способ 1: cURL

Сложность инструмента: средне

cURL

CURL (Client for URLs) – командная утилита для передачи данных по сети.

Если проще, то это встроенная утилита в терминал Windows и MAC OS, которая может ходить по заданному вами URL и получать различные данные. Но нас интересуют только данные по HTTP header и HTML страницы.

Создаем запрос в CURL

Чтобы посмотреть HTML сайта как поисковый бот и увидеть HTTP HEADER, мы создаем запрос следующего характера, где 

  • curl – название программы, 
  • -i – запрос на получение HTML страницы и HTTP header, 
  • -A – под каким user-agent нужно заходить на сайт.

cURL

Учтите, что CURL запрашивает информацию напрямую с сервера сайта и не эмулирует javascript на странице!

Что получаем от сервера

В обратку получаем HTTP Header и HTML код сайта. HTTP Header поможет нам узнать коды ответа сервера, robots, canonical и другие параметры. А HTML покажет вам, какой код видит именно поисковик, в нашем примере Яндекс.

cURL

Итого, в нашем примере за 1 минуту мы получили ответ сервера, адаптированный под поисковик Яндекса. Осталось теперь только сравнить то, что отдал CURL для Яндекса, и то, что отдал ваш браузер. Как подробно сравнивать, я рассказал в конце статьи в пункте «Как сравнить полученные данные?».

Плюсы и минусы cURL 

Плюсы

Минусы

Может обходить базовую авторизацию сайтов и смотреть на демо-контуре.

Не умеет обходить другие типы авторизации.

Показывает на 100% точные данные.

Не умеет обходить captcha, защиты от ddos и фаерволы.

Есть по умолчанию на любом устройстве: Windows и MAC.

Если SSL-сертификат у сайта не валидный, то CURL не сможет зайти на сайт, и нужно производить дополнительные настройки.


Не удобный UX/UI, весь код выводится в терминале и не структурирован.


Требует минимальные знания в работе GET, POST и других видов запросов.


Требует знания различных параметров, -i, -A и другие.


Не эмулирует javascript.

Способ 2: SEO ALL STARS 

SEO ALL STARS

Сложность инструмента: легко 

Расширение для Google Chrome SEO ALL STARS – мульти-функциональное и позволяет увидеть контент (текст, заголовки, ссылки, HTML), который не видит поисковый бот. А также сравнивает метатеги, анализирует ссылки, серверные и javascript редиректы, HTTP headers, скорость загрузки.  

Установить расширение можно в магазине Chrome web store, кликнув сюда

Шаг 1: открываем любой сайт 

После того как установили расширение, открываем любой сайт и нажимаем на расширение. Я тестировал на домене detmir.ru.  

Шаг 2: настройки 

Заходим в настройки и выбираем нужного вам бота. Доступны Яндекс mobile, Яндекс desktop, Google mobile, Google desktop. Я для теста выбрал Google desktop. 

Google desktop

Шаг 3: пролистываем до блока Differences 

3.1 В первом блоке можем увидеть разницу в количестве слов и количестве HTML-символов между нашим браузером и тем, как видит сайт Google. Разница в 1080 слов и 172487 символов в HTML. 

блок Differences

3.2 Во втором блоке мы можем увидеть разницу в контенте от сервера сайта, который отдаем нашему браузеру и Google. 

Разница в контенте

3.3 А вот этот блок считаю самым топовым! Он показывает, сколько текста и HTML не видит Google на сайте. Тут сразу можно выявить проблему рендеринга. 

Еще он показывает, какой текст не видит наш браузер, а видит Google. Тут можно узнать о «черном» SEO и выявить cloaking. 

Разница в контенте

3.4 Чтобы посмотреть, какой текст не видит Google, нажмите на Missing Text. Для просмотра невидимого HTML, нажимаем Missing HTML. Можем сразу понять, какие ключевые слова Google не учитывает, и предпринимаем действия. 

Разница в контенте

Шаг 4: остальной функционал 

Немного опишу функционал, который посчитал полезным тоже. Расширение сделано на логике сравнения вашего браузера и того, что видит поисковый бот.  

4.1 Отслеживает, какие URL на страницы скрыты от поисковиков. Показывает как внутренние ссылки, так и внешние. 

4.2 Отслеживает, какие заголовки < H > не видит поисковик или ваш браузер. 

функционал

4.3 Отслеживает разницу между метатегами у вас и у поисковика. Очень полезно, когда на сайтах меняют метатеги через javascript. Обычные расширения этого не покажут. 

4.4 Отслеживает скрытые редиректы. Полезно тогда, когда вам страница отдает 200 ответ, а поисковому боту 301 и подсовывает ему иную информацию. 

SEO ALL STARS  

Плюсы и минусы SEO ALL STARS  

Плюсы

Минусы

Показывает, какой текст и HTML поисковые боты не видят на странице.

Только на английском языке.

Показывает, насколько контент различается между тем, что видит ваш браузер и что видит поисковый бот.

Доступно только 2 поисковых бота: Google и Яндекс. Нельзя вручную указать другие user-agent.

Отображает, какие ссылки на странице индексируются поисковыми ботами, а какие нет.

Данные для поисковых ботов не прогрузятся, если у сайта стоит защита Cloudflare или captcha.

Сравнивает различие метатегов у вашего браузера и поисковых ботов.

Полученный HTML не структурирован, нужно скопировать его в стороннее приложение для анализа.

Показывает на 100% точные данные.


Способ 3: Postman 

Postman 

Сложность инструмента: средне 

Postman – инструмент для тестирования и разработки с отправкой HTTP-запросов к серверу и их анализа. Утилита доступна для Windows и MAC, скачать можно на официальном сайте www.postman.com.  

Как SEO-специалисты мы будем использовать Postman максимум на 10% от его функционала. Остальные возможности больше нужны для тестирования API и разработки.  

Создаем запрос в Postman 

1. Открываем Postman и нажимаем на «плюсик», так мы создаем новый HTTP-запрос. 

Postman

2. В поле выбираем GET и вставляем нужным нам URL, мы будем проверять https://pr-cy.ru/. 

Postman

3. Переходим во вкладку Headers, в поле Key вводим User-Agent, а в поле Value вводим самое значение user-agent, в нашем примере Яндекса – Mozilla/5.0 (compatible; YandexBot/3.0; + http://yandex.com/bots) и нажимаем кнопку SEND. 

Postman

4. Ниже в области BODY мы увидим полученный HTML-код именно таким, каким видит его Яндекс в десктопной версии (потому что user-agent мы использовали для десктопных устройств). 

5. А если нажать на CONSOLE, то сможем проанализировать HTTP Headers и цепочки редиректов!  

Postman

Плюсы и минусы Postman 

Плюсы

Минусы

Показывает на 100% точные данные.

Не умеет обходить captcha, защиты от ddos и фаерволы.

Выдает структурированный HTML, с которым удобно работать.

Требует минимальные знания в работе GET, POST и других видов запросов.

Можно обходить практически любую авторизацию сайтов. Можно смотреть сайты на демо-контурах.

Не эмулирует javascript.

Способ 4: Chrome DevTools 

 Chrome DevTools

Сложность инструмента: тяжело 

Кажется, Chrome DevTools в представлении не нуждается, но все же дадим краткое определение. Chrome DevTools – это набор инструментов для разработчиков, позволяющий отлаживать, тестировать и профилировать код в реальном времени. 

Вы скажете, а причем тут Google Chrome DevTools, ведь Chrome грузит javascript. В данном методе мы будем инспектировать вкладку Network и Network condition, чтобы настроить нужный нам user-agent и смотреть ответ сервера без стороннего javascript. Погнали! 

Шаг 1: Устанавливаем user-agent 

  • Открываем в браузере нужную страницу.
  • Нажимаем на 3 вертикальные точки, выбираем More tools и нажимаем на Network Condition. 

Chrome DevTools

  • Убираем галочку с пункта User agent Use browser default. 
  • Вставляем user-agent бота, в нашем случае Яндекса. 

Chrome DevTools

Шаг 2: Смотрим ответ от сервера для нашего поискового бота 

  • Переходим во вкладку Network. 
  • Прокручиваем в самый верх и выбираем нашу страницу. 
  • В поле Headers смотрим HTTP Headers, а в поле Response смотрим, какой HTML-код получил бы Яндекс. 

 Chrome DevTools

Плюсы и минусы Chrome DevTools 

Плюсы

Минусы

Решаем задачу в одном пространстве, браузере Google Chrome или подобных.

Времязатратный инструмент в связи с тем, что нужно переключаться по многим вкладкам в панели разработчика.

Показывает на 100% точные данные.

После установки user-agent и перехода в Network обязательно нужно перезагружать страницу, что тратит время анализа.

Позволяет обойти captcha, защиты от ddos и фаерволы.

Требует техническое понимание HTML, HTTP Headers.

Можно смотреть любые сайты под авторизацией, на демо-контурах.


Способ 5: JS Switcher 

JS Switcher

Сложность инструмента: легко 

Данный способ не является 100% точным, так как у проверяемого сайта может стоять сторонний пререндеринг, и при отключении javascript от вас скроется контент, но по факту поисковый бот его может видеть. 

JS Switcher – это расширение для SEO-специалистов и разработчиков, которое правильно отключает javascript на любом сайте. Установить расширение можно в магазине Chrome web store, кликнув сюда

Как использовать JS Switcher? 

UX очень простой. Просто устанавливаете расширение в браузер и нажимаете на него. Цветной значок значит, что javascript работает. Серый значок значит, что javascript выключен. 

Плюсы и минусы JS Switcher 

Плюсы

Минусы

Быстрота отключения javascript на странице.

Отключение только javascript не гарантирует того, что увидит поисковый бот.

Отключает с перезагрузкой и деструкцией всех скриптов.

Не умеет смотреть напрямую глазами поисковых ботов, инициирует код со стороны вашего браузера.

Резюмируем: какой инструмент лучше использовать и когда? 

cURL: удобный для получения сырого HTTP header и HTML, но не эмулирует javascript и требует знания параметров запросов. Идеальный, чтобы «въехать» в тему. 

SEO ALL STARS: мультифункциональное расширение для Chrome, которое экономит кучу времени. Выводит уже невидимый контент для поисковых ботов. Идеально, если вы часто анализируете сайты и не хотите руками сравнивать HTML и тексты. 

Postman: подойдет для тех, кто хочет сам проанализировать полученный HTML и сравнить его со своим. Тратится большое количество времени, но исследования иногда дают дополнительные инсайты. 

Chrome DevTools: инструмент для профессионалов. Может сделать все что угодно. Нужно лишь разобраться. Требует высокие знания сайтостроения, работы сервера и навыков javascript. 

JS Switcher: расширение для отключения javascript, быстро, но точность данных ограничена, может быть скрытый от ботов контент.

3 комментария
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
  • Гость
    1
    комментарий
    0
    читателей
    Гость
    3 месяца назад
    Сейчас клоаку прячут, так что под нее можно глянуть только с гуггловских ip. Сейчас только гуггл сервисами можно глянуть
    -
    0
    +
    Ответить
  • Мой Генерал
    4
    комментария
    0
    читателей
    Мой Генерал
    5 месяцев назад
    вся суть госухи (ну, не вся, конечно, но большая часть) неэффективная трата ресурсов, ради чего?
    все то же самое (любой запрос с любыми параметрами, любой юзер-агент, получение заголовков ответа, тела страницы, отчет по последовательности кодов ответа) можно получить в 2 клика в Бертале! но нет, свободного времени вагон, надо его занять чем-нить.
    -
    -7
    +
    Ответить
    • Димас
      1
      комментарий
      0
      читателей
      Димас
      Мой Генерал
      5 месяцев назад
      Бертал лажа, как ты собираешься обходить защиту сайта при парсинге через Бертал?
      Или как ты собираешься дальше развиваться в it, если юзаешь только сторонний софт не разобравшись в бекграунд процессах?
      -
      3
      +
      Ответить

Отправьте отзыв!
X | Закрыть