Текстовый анализ в 2024 году и методы увеличения релевантности страниц

На Optimization 2023 в рамках секции «Hard SEO» независимый SEO-эксперт Андрей Джилавдаров выступил с докладом «Текстовый анализ в 2024 году».

Андрей рассказал:

Как нейросети помогают улучшить качество поиска.
Как считывать интент, определенный нейросетью, и как выявить под него маркерные запросы для анализа.
Показал практические методы увеличения релевантности страниц в конкурентных нишах, чтобы быть не «как все».

Все обзоры ищите по тегу Optimization 2023.

Текстовое ранжирование

Задача поиска – оценить и дать ответ. Для этого у него есть инструменты (ML-машинное обучение, факторы ранжирования, нейросети), оценки экспертов и метрики качества поиска, то есть то, что поиск считает хорошим ответом.

История качества поиска

Если посмотреть на историю качества поиска, то до 2016 года работали простые вещи (TF-IDF, ВМ-25, BCLM) – все, что связано с вхождениями ключевых слов, количеством вхождений, порядком слов.
С 2016 года были запущены первые нейросети – Палех и Королев (DSSM), а также таргеты на обучение – поведенческие факторы.
В 2019 году произошло первое обучение нейросетей на экспертных оценках. Тогда можно было поставить одно слово в Title и попасть в ТОП. Это были первые обучения нейросетей на экспертной оценке.
В 2020 году появилась новая архитектура для анализа текста – трансформер YATI.
В 2021-2022 году произошло дообучение практически во всех экспертных нишах, которые было важно оценить. Первоначально там была медицина, но потом подтянули и остальные.

Коротко про YATI

YATI – это просто еще один трансформер с улучшениями.

Схема устройства работы YATI

Схема устройства работы YATI

Эта такая модель или архитектура, которая рассматривает текст как последовательность токенов. Слово – это один токен. И так как эта модель видит текст полностью, она превращает каждое слово в тексте в семантический вектор, который передает смысл слова в этом предложении.

В трансформерах есть механизм self-attention, поэтому он получает информацию и с окружающих слов, то есть со всего текста вообще. Таким образом, получаем контекстозависимый смысл слова во всем большом тексте.

При обучении YATI использовали такую же модель обучения, как в BERT, Masked Language Model, когда половину слов в текстах закрывали и просили модель предсказывать эти слова. Если она их корректно восстанавливала, тогда считали, что они ее обучили. Но параллельно с этим они также просили ее угадать, был ли клик по документу, по данному запросу.

Дальше нейросеть нужно обучить на более сложные таргеты. Здесь используются накопленные данные Яндекса, такие как разметки по качеству хоста, разметки по релевантности страниц и многоаспектные оценки от экспертов.

Как улучшить качество поиска в сложных тематиках?

Сложные тематики – медицина, техника, финансы, юриспруденция, софт, программирование и другие. Суть общая: обычный человек, не эксперт, вряд ли сможет понять, что релевантно в выдаче по запросу, а что нет.

В чем могут быть проблемы?

Проблемы с метриками. Допустим, люди-асессоры не знают сложную тему и могут формально поставить релевантную оценку не тому сайту.
Проблемы с моделями. Например, когда модели не видят каких-то слов, сленга или какой-то контент части документа.
Проблемы с количеством релевантных хостов или документов в индексе. Например, когда Google выкатил BERT, то оказалось, что Google показывает в выдаче большой пласт медицинских сайтов региональных клиник, в то время как в Яндексе эти сайты по медицинским запросам не брались даже в первичную обработку.

В 2021-2022 году Яндекс улучшил нейросеть:

добавили релевантные предложения;
добавили в документную часть заголовки, начало текста документа (60 символов) и description документа. То есть описание документа, который SEO-шники никогда не заполняли, сейчас тоже идет в нейросеть, в представление документа.

Что такое релевантное предложение?

Когда человек ищет текст, поиск выбирает нужное вхождение на подходящем сайте и забирает релевантный текст вокруг. Этот текст идет в представление расширения документа.

Еще один важный пункт – сейчас, когда пользователь задает запрос, сразу определяется его тематика. Затем из индекса уже выбирается группа сайтов нужной тематики и среди них идет ранжирование.

Качества, которым должен обладать ответ

Релевантность страницы. Ответ должен соответствовать потребности пользователя (содержать нужные вхождения).
Наполненность страницы. Ответ должен быть полным, учитывать все возможные интенты пользователя. Это означает, что по многим тематикам, например, медицинским, есть эталонные ответы.
Регион пользователя. Если содержание ответа зависит от региона, хорошей будет только та страница, которая соответствует региону пользователя.
Актуальность информации. Если содержание ответа меняется со временем, хорошим будет тот сайт, который содержит самую свежую на данный момент информацию.
Соответствие ОС. Мобильной или десктопной версии для разных пользователей.
Язык запроса. Ответ на языке пользователя лучше, чем ответ на любом другом языке.
Доверие к источнику (EAT). Ресурс, предоставляющий ответ, должен быть авторитетным. Нейросеть отлично понимает, что за ресурс перед ней, и какого он качества.

Интенты

На скриншоте представлен список интентов, которые есть в медицине.

Интенты в запросах на медицинскую тему

Интенты в запросах на медицинскую тему

Но что делать, когда интента в запросе нет?

Смотрим, что подается сейчас в YATI для представления документа:

Пример представления документа в YATI

Пример представления документа в YATI

Тут есть Title, подзаголовки, начало контента, разбивка URL, то есть, виден хост, ЧПУ и description и релевантные предложения. Поэтому, когда вы анализируете запросы, вы можете взять, например, ТОП-30 выдачи и посмотреть у сайтов все эти зоны и построить частотный словарь.

Нейросеть выводит те документы наверх, где прописаны четкие интенты.

По словам Андрея, сейчас один из самых продуктивных подходов – это просто взять вашу вершину кластеров, посмотреть, какие в них есть интенты, и составить из них четкое, подробное ТЗ, где будут прописаны все пункты по тексту.

То есть мы идем не от того, что у нас есть какие-то ключевые слова, мы идем от того, что у нас есть интенты, у каждого интента есть своя семантика, нужно просто встраивать ее в статью.

Структура статьи, где каждая часть закрывает свой интент

Структура статьи, где каждая часть закрывает свой интент

Но SEO-специалисты хотят оптимизировать.

Как увеличить релевантность страниц?

Что можно сделать еще:

1. Длинные вхождения ключевых слов (3 и более слова) используем в Title и подзаголовках.

2. Вхождения ключей:

из семантики делаем частотный словарь по униграммам, биграммам и триграммам;
проверяем покрытие текста ключами из словаря.

3. В акварель генераторе just-magic.org. используем одно или несколько частотных ключевых слов:

проверяем покрытие текста биграммами из сервиса.

4. Делаем релевантные предложения = тексты для нулевых сниппетов.

Эти простые вещи помогают поднять релевантность текста.

Скоринг запросов по весу Seo-excel

Из ключей с частотностью можно построить скоринг или по-другому «Частотность Климова».

Скоринг запросов по весу Seo-excel

Скоринг запросов по весу Seo-excel

На скриншоте в самом верху два запроса. Отличие только по окончанию. Смысл в том, что наверху находятся все запросы, которые покрывают правильным порядком слов менее частотные запросы. Поэтому можно сделать похожую разбивку и понять, что возьмете в title, а что возьмете в подзаголовки.

Про семантику. Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Частотный словарь SemTools.guru

Если у вас есть много запросов, то их не надо все вставлять в текст. Достаточно просто нарезать их на униграммы, биграммы, то есть разбить на мелкие фракции и проверить вхождения. Для разбивки можно использовать любой сервис, например, SemTools.guru.

Тематические слова JustMagic

Тематические слова в Just-magic.org

Тематические слова в Just-magic.org

Принцип, похожий на предыдущий пункт. Андрей советует брать биграммы запроса, потому что в Яндексе очень много оценок и таргетов именно по биграммам. И если мы построим частотный словарь, то увидим, что основные интенты с какими-то нашими словами присутствуют рядом. Это означает, что все корректно собралось.

Дальше берем все наши униграммы, биграммы, тематические слова и просто проверяем текст:

Тематические слова в Just-magic.org

Если мы видим примерно такую картину, это означает, что текст условно релевантный. То есть в нем есть все подзаголовки, вхождения запросов и это работает.

Релевантные предложения в Seolemma

В сервисе Seolemma есть функция релевантный пассаж. То есть в нем можно посмотреть вхождение ключа у себя и у конкурентов. Просто сравнить.

Если у вас, допустим, все вхождения ключевых слов с какими-то словами, которые несут смысл «с водой», то сервис покажет, что IDF маленький. А если с какими-то запросами, которые имеют смысл, то IDF большой.

Сервис не от Яндекса, но у него своя база, примерно в 30 миллионов URL, поэтому можно на него ориентироваться.

Как выглядят релевантные предложения:

релевантные предложения

Можно делать в тексте несколько подобных вкраплений. Мы берем любой запрос, проверяем нулевой сниппет в Яндексе или в Google и стараемся в тексте у себя сделать такое же пояснение.