Как стандартизировать данные семантики с помощью логарифмов

Сбор, кластеризация и анализ полученных данных по семантическому ядру – один из наиболее важных этапов продвижения сайтов в поисковых системах.

Так как процесс сбора ядра имеет примерно одинаковый алгоритм во многих компаниях, в данной статье мы поговорим не о самом процессе формирования кластеров, а о способе быстрой оценки данных при выборе наиболее значимых кластеров для работы. Это позволит сделать быстрый старт именно с тех позиций, которые имеют наиболее весомые показатели как по коммерческой оценке, так и по частотности.

Проблема

При работе с большим объемом запросов в коммерческой тематике и при необходимости быстрого запуска наиболее весомых кластеров часто возникает ситуация, когда выборка по частотности показывает запросы некоммерческого характера. После сортировки ключей по коммерческим оценкам мы можем увидеть вверху низкочастотные запросы, которые не интересны для нас на этапе старта работ.

На скриншоте видно, что, фильтруя по частотности, мы получаем вверху запросы с низкими коммерческими показателями

Если представить ситуацию, при которой мы работаем с готовой чистой информационной семантикой, то тогда мы можем отбирать

либо самый частотный запрос, а затем забирать остальные запросы кластера по номеру группы (grp);
либо сортировать информацию по сумме кластера через функцию «СУММ ЕСЛИ».

Данный способ не подходит, когда при сортировке по частотности мы получаем запросы, не отсортированные по коммерческой оценке.

Стандартизация данных

Суммировать сумму запросов кластера и смотреть на ее отношение к сумме по процентам коммерческой оценки некорректно. Во-первых, это две разные сущности. Во-вторых, большой кластер с низкими коммерческими оценками запросов за счет их суммы может оказаться выше кластера из меньшего количества запросов, которые обладают 100% коммерческим интентом.

В результате в числе приоритетных ключей мы увидим ключевые фразы, не соответствующие нашим требованиям.

Чтобы решить этот вопрос мы должны:

1. Стандартизировать данные, для чего мы вводим функцию натурального логарифмирования. Прежде, чем объединять данные, нам нужно их нормировать и сжать. Функция логарифма для Excel «=LN(в скобках указываем нужное число)».

На скриншоте показано, как выглядит формула

2. Прибавить условное число для каждого показателя частотности и коммерческости, чтобы избежать ошибок, если данные равны 0 или 1.

3. Логарифм обезличивает наши данные и дает возможность сопоставить их для сравнения.

Далее мы складываем полученные числа, чтобы получить показатель, по которому можно сделать сортировку запросов и увидеть наиболее приоритетные в семантическом ядре по соотношению коммерческой оценки запроса и его частотности.

Также мы можем сдвинуть веса, изменив приоритет суммируемых данных. Это можно сделать через коэффициент, который добавляем к тем данным, которые для нас важнее.

После того как сделана сортировка и выбраны запросы для работы, остальные ключи кластера можно подтянуть по номеру группы.

Заключение

Предлагая данный метод, мы бы хотели, в первую очередь, услышать обратную связь. Возможно, есть способ повысить точность итоговых данных или ускорить процесс.

Данный подход встречается в прогнозной аналитике Дмитрия Иванова, но при этом метод не распространен среди SEO-специалистов. Часто на различных курсах по SEO вопрос выбора кластеров сводится только к частотности или коммерческой оценке. Однако проблема отсутствия возможности увидеть сбалансированные данные по этим двум характеристикам остается. На наш взгляд это некорректно, поэтому мы попробовали систематизировать работу в этом направлении.

Представленный метод позволяет:

быстро выделить запросы и кластеры, наиболее важные для работы в плане частотности и интента,
исключает потерю в большом ядре ключей, которые лучше всего отвечают нашим требованиям, но не имеют ярко выраженного показателя, по которому можно сделать обычную сортировку.