Продолжаем обзор программной части конференции Baltic Digital Days, которая уже в пятый раз проходит в Калининграде. В рамках секции «SEO в русскоязычном интернете» Александр Ожгибесов представил доклад на тему «Исследование качества сервисов кластеризации по поисковой выдаче».
Свое выступление спикер начал с цитирования самых распространенных вопросов клиентов:
- Какой кластеризатор лучше?
- Какая степень лучше?
- Как им пользоваться и так далее.
Когда я начал вести вебинары, эти вопросы мне стали задавать каждый день. Вот почему я решил взять на себя ответственность и сделать правдивый, объективный рейтинг существующих ТОП-овых кластеризаторов, – пояснил он.
Существует проблема в кластеризации: чтобы сделать качественное ядро, нужно проанализировать нишу, понять, чем занимается клиент, свести данные воедино, подготовить запросы для парсинга, вытащить множество запросов из источников, все это посмотреть по кластеризации по ТОПу, а потом еще вручную доанализировать, сгруппировать по контенту. В результате проект получается нереально долгим и затратным.
Таким образом, большую часть времени при составлении семантического ядра занимает:
1. Предварительный анализ структуры сайтов конкурентов.
2. Подготовка входных групп для парсинга и дальнейшая очистка данных от мусора.
3. Кластеризация запросов.
Кластеризаторы призваны решить эту проблему.
Рейтинг 8 кластеризаторов
В ходе исследования перед экспертами стояла задача получить рейтинг не по конкретной тематике, а сразу по нескольким тематикам. Поэтому брали примерно по 30% каждого из этих параметров. Были и низкочастотные запросы. Изначально на входе было 116 тематических ядер общим объемом на 102 тысячи запросов.
Но есть проблема: запросы собирала моя команда, и они не идеальны, – добавил Александр. – Но при этом нам нужно было представить выборку идеальной и репрезентативной для доклада. Что мы делаем дальше? Мы предполагаем, что нельзя оценивать правильность кластеризации во всему ядру в целом. Мы будем сравнивать не по семантике, а по каждому конкретному кластеру.
Допустим, есть 180 запросов, и по 170 запросам сайт занимает с 1 по 5 позицию. При этом запрос №180 занимает позиции с 5 по 10. Именно первый вариант будет наиболее интересен, поскольку по нему сайт смог попасть в ТОП.
У нас был пул запросов, все данные поисковой выдачи были получены через прокси, и по каждому URL сформировали ТОП-10 сайтов.
Далее необходимо отыскать наилучшие по количеству совпадений запросы из общего числа.
Выделенные сайты нужно проанализировать с точки зрения позиции в выдаче:
По итогам анализа видно, что по кластеру «расчет ОСАГО» в ТОПе выдачи находится следующий сайт:
Всего 189 запросов, на одной странице по одному кластеру, из них в ТОП-1 – 69, ТОП-10 – 31.
Что касается одной известной всем компании, то для нее результат оказался чуть хуже:
Далее следует полуинформационный-полукоммерческий сайт, здесь результаты гораздо хуже:
Для дальнейшего разбора кластеризаторов будет использоваться ресурс www.bonus-malus.ru.
Что делаем дальше?
Далее необходимо обратиться к сервису кластеризации и выгрузить все запросы по странице, которая, согласно приведенным выше данным, была идеальной. С этой целью был выполнен экспорт запросов из Serpstat по странице https://www.bonus- malus.ru/osago/kalkuljator.html.
При этом позиции ниже ТОП-10 в расчет брать не нужно. Далее производят сравнение исходного кластера, который был представлен в семантике, с кластером сайта. Аналогичное сравнение производится по каждому кластеру в исходном семантическом ядре. Только после этого будет получен результат.
Тематика «ОСАГО страхование» очень популярна, и здесь данные идеальные.
Однако и здесь не бывает идеальной ситуации. Так, например, в ходе эксперимента возникли проблемы: часть семантических ядер была не так хороша, как того бы хотелось.
К нам обращаются совсем разные бизнесы. 37% тех, с которыми все получилось: во-первых, это узкая тематика, – пояснил Александр:
Во-вторых, тематика и регион.
Представители сервисов кластеризации нередко подчеркивают, что SEO-специалисты неправильно работают с ними. Не нужно подавать голые парсинги из Вордстат, подсказок и всего прочего, нужно изначально делать оценку, убирать лишнее, предоставлять на вход более-менее правильные данные, и тогда вы получите реальный, крутой результат.
Так и есть, мы используем данные кластеризации, но только в таком фоне, а не в фоне «спарсили и отдали на вход». Поэтому данные, которые мы подавали на вход — это наши ядра, которые мы продали, которые прошли оценку качества, у которых все круто, – согласился с позицией сервисов спикер.
Иными словами, данные, которые подаются на вход, являются максимально объективными по требованию самих же кластеризаторов. Это не только очищенные от мусора запросы, а готовая группировка, на основе которых строится структура и продвижение реальных сайтов. Данные, которые вы получите, применив эту методику на «голом» парсинге, никак не могут соотноситься с текущим исследованием!
Кластеризация проводилась в каждом из сервисов в одно и то же время.
Но прежде чем представить слушателям рейтинг сервисов, Александр продемонстрировал проблемные моменты, с которыми столкнулся во время проведения анализа.
На слайде представлены 3 кластера
Прежде всего, это дублирование кластеров:
Важно понимать, что:
- салют
- фейерверки
- салют и фейерверки
Это три разных кластера.
В то же время рядовой специалист работает по следующей схеме: выгружает ядро из 60 тыс. запросов и отдает это на вход. Кластеризаторы выдают самый большой кластер, по которому и формируется ТОП. При таком подходе получить качественный результат невозможно.
Вот как должна проводиться работа по кластеризации в идеале:
Еще одна существенная проблема - это отсутствие кластеризации в регионах. Стоит лишь копнуть чуть глубже и можно получить абсолютно разные кластеры. На слайде видна статистика по 2400 запросам.
Поскольку отдельные запросы нередко «прыгают» по кластерам, важно сформировать структуру запросов, статьи, сайта и распределить некластеризованные запросы:
Важно понимать, что есть множество запросов, которые в принципе не кластеризуются.
Дополнительно спикер пояснил, что сбор семантики — это отдельный бизнес-процесс, и в каждой уважающей себя SEO-компании есть целый отдел, который им занимается.
Я не призываю вас не использовать кластеризацию, я призываю думать своей головой. Кластеризация — это круто, — пояснил Александр.
Семь параметров оценки
В ходе анализа кластеризаторов использовали 7 параметров оценки:
1 параметр — это сильное совпадение. К примеру, есть исходный кластер и есть кластер кластеризатор, он на 60% повторяет наш кластер, от 60 до 100% — это хороший показатель.
2 параметр — слабое совпадение, когда процент совпадений из кластера сервиса составляет от 59 до 21% с исходным кластером. Это тоже неплохо.
3 параметр — когда идет сильное несовпадение (от 20 до 0%). Это не круто.
4 параметр — процент некластеризованного. То есть процент запросов из кластеризации сервиса, которые оказались непригодными для кластеризации по сравнению с исходным кластером.
5 параметр — совпадение по важным запросам. То есть совпадения по частотным запросам в тематике.
6 параметр — совпадение по второстепенным запросам. Этот параметр характерен только для очень крупных бизнесов.
7 параметр — совпадение по ТОПу. Сравнение проводится по методологии оценки исходной группировки, но с учетом дублей по кластерам.
Вот такие данные удалось получить по каждому ядру.
Key Collector крут!
Что касается сильного совпадения, здесь данные оказались следующими:
Далее сравниваем слабое совпадение:
Сильное несовпадение:
Некластиризовано:
Совпадение по важным:
Совпадение по второстепенным:
Вхождение в ТОП:
Далее были выбраны лучшие кластеризации, которые будут представлены ниже:
Итоговая оценка получилась такой:
Что касается вхождения по ТОПу, то у 40% кластеризаторов проблем с этим параметром нет. Однако в целом кластеризаторы уступают специалистам и всем сервисам есть, куда расти.
Сделать однозначный вывод о том, какой из кластеризаторов лучший, невозможно. Ведь следует учитывать все предыдущие параметры, на основе которых проводился эксперимент: где-то Rush Soft реально проигрывает Just-Magic, а где-то Топвизор выигрывает у Rush Soft, но это исключение из правил.
В таблицах представлены общие данные по 116 тысячам запросов. Я считаю, это объективно, – подвел итог исследования спикер.