В конце августа Лаборатория поисковой аналитики «Ашманов и партнеры» опубликовала вторую часть масштабного исследования факторов ранжирования по информационным запросам. Отчет заслуживает внимательного изучения. Поэтому редакция SEOnews решила дополнительно обсудить результаты исследования с руководителем Лаборатории и партнером «Ашманов и партнеры» Михаилом Воловичем.
Поговорили про факторы ранжирования для коммерческих и информационных запросов, а также про использование искусственного интеллекта в поиске и помогла ли учечка факторов ранжирования в анализе работы Яндекса и Google.
Для клиентов «Ашманов и партнеров» – да, подозреваю, и для SEO-сообщества – интереснее всего, конечно, то, что связано с коммерческими областями. В частности, тем, кто продает какую-нибудь электронику или, например, лекарства и при этом вкладывается в создание контента, жалко отдавать трафик по информационным запросам инфопомойкам, которых полно и которые их часто опережают. Да и конкуренция по «информационно-коммерческим» запросам выше, что для нашей методики довольно важно. Поэтому информационно-коммерческие выборки нам точно нужно было брать. Мы для надежности взяли сразу две, и они оказались очень разными. В некоторых отношениях выборка «Косметика» ближе к третьей выборке, «Науке», чем ко второй инфо-коммерческой, «Гаджетам».
Для сравнения была нужна минимально коммерциализированная выборка, где поисковым машинам почти не «помогают» оптимизаторы. При этом хотелось исключить новостной контент, у которого своя существенная специфика – например, результаты поиска должны быстро меняться. И не хотелось брать «чувствительные» тематики вроде медицины, где все очень осложняется повышенной осторожностью поисковых машин. Мы остановились на запросах, связанных с популярной наукой – это не «хардкорные» запросы от ученых, а то, что интересно обычным людям.
Некоторую роль тут сыграли и мои собственные интересы: я имею отношение к одному из лучших научно-популярных сайтов, и мне обидно, когда поисковики вместо действительно хороших источников и внятных текстов выдают всякую ерунду.
Вот нам тоже это было интересно :)
Оказалось, что да, похоже – и даже больше, чем мы ожидали.
Точно так же лидируют старые сайты с самым большим трафиком, ИКСом, у которых больше всего страниц и на которые ведет больше всего ссылок. Точно так же сайтовые параметры важнее страничных – например, для ссылок. И даже текстовое ранжирование работает очень похоже: для информационных запросов, как и для коммерческих, текстовая релевантность – не гарантия высокой позиции, а всего лишь необходимое условие для попадания в топ.
Разумеется, есть и отличия. Информационные сайты редко попадают в топ по коммерческим запросам – но и коммерческие избегаются при ранжировании по информационным, хотя и менее строго. И критерии «полезного сайта» для информационных запросов, конечно, не совсем такие, как для коммерческих.
«Сильный параметр» – не обязательно «фактор ранжирования». Мы отнюдь не утверждаем, что Google учитывает ИКС в ранжировании – это почти точно не так. Да и про Яндекс мы не знаем точно, учитывается ли ИКС напрямую – вероятно, тоже нет, хотя те параметры, которые используются при его вычислении, конечно, входят и в формулу ранжирования.
ИКС, хотя и называется «индексом качества», очень сильно связан с трафиком. Самый простой и универсальный способ убедиться в том, что сайт полезен для пользователей, – посмотреть, сколько пользователей его посещают. Это работает и для коммерческих, и для информационных, и для любых других сайтов, и, мне кажется, поисковики этим немного злоупотребляют. По любым запросам они начинают вытаскивать наверх самые крупные сайты, на которых есть хоть сколько-нибудь разумный ответ. Это хорошая страховка от того, чтобы показать пользователю полную ерунду, – но это фактически и отказ от попыток вытащить по каждому запросу действительно лучший ответ, который совершенно не обязательно следует искать на Wildberries, «Циане», в Википедии или, например, ВКонтакте.
Если релевантных ответов на какой-то запрос в Сети мало, то могут конкурировать и конкретные страницы. Но обычно – особенно по частотным запросам, и особенно в высококонкурентных областях – поисковой машине есть из чего выбирать. И тогда на первый план выходят не особенности конкретных страниц, а достоинства сайтов, которым они принадлежат. А в случае коммерческих запросов – и стоящих за ними бизнесов.
Размер сайта при этом тоже имеет значение – причем и общий (мы можем судить о нем по количеству страниц в индексе Яндекса), и «релевантный» (количество найденных страниц с сайта). Удивительно, что, несмотря на явную условность обоих чисел – Яндекс, например, может показывать количество найденных страниц с сайта больше, чем общее количество страниц в индексе, – они оказываются весьма сильными параметрами, то есть некоторая «правда» за ними, несомненно, стоит.
Сильными параметрами оказывается и количество внутренних ссылок с найденной страницы – причем тоже и общее, и «релевантное»: количество вхождений слов запроса во внутренние ссылки. А это тоже косвенная оценка «релевантного размера» сайта.
Ссылочные факторы чувствуют себя прекрасно – они вполне оправились от того унижения, которое испытали десять лет назад, когда их не только сбросили с пьедестала главных и решающих факторов ранжирования, но и обещали вообще не учитывать (и даже отчасти эту угрозу осуществили).
Они сейчас настолько сильные, что на наших данных трудно выбрать, что важнее – количество ссылающихся доменов, количество уникальных ссылок, общее количество ссылок или количество ссылок с учетом их веса (LinkRank). Все эти параметры очень сильно коррелируют между собой – чем выше один, тем выше и другие. И почти так же сильно коррелируют с трафиковыми, «размерными» и т. п. метриками, связанными с упомянутой выше тенденцией предпочитать в поиске очень большие сайты. Разумеется, я говорю сейчас о «сайтовых» параметрах – «страничные» гораздо слабее.
Сильны и ссылочно-текстовые факторы – и снова сайтовые сильнее страничных, хотя в этом случае разница и менее кардинальная.
«Белые» ссылки имеют примерно такую же силу, как ссылки в целом; «серые» (с сайтов, замеченных в размещении ссылок за деньги) немного слабее – но это, возможно, просто потому, что информационные сайты редко покупают ссылки.
И еще хочу обратить внимание на два параметра, про которые обычно забывают, а они оказались достаточно сильными:
Вопрос «как учитывается» – не совсем ко мне. Я могу рассказать только, как это проявляется на тех параметрах, на которые мы смотрим.
Так вот, количество исходящих ссылок – довольно сильный параметр в обоих поисковиках. В Google больше, чем в Яндексе; на информационных выборках больше, чем на коммерческой.
Иногда ссылки закрывают атрибутом nofollow, чтобы не «раздавать PageRank» – таких ссылок в разных выборках от трети до половины. Если их не учитывать, параметр оказывается немного слабее – но не принципиально, то есть похоже, что поисковые машины сейчас особого внимания на этот атрибут не обращают.
Что касается текстов исходящих ссылок, то связанные с ними параметры – тоже довольно сильные.
То есть «ценятся» не только исходящие ссылки вообще, но и – в особенности – ссылки, релевантные запросу. Правда, таких ссылок обычно немного, они есть далеко не на всех сайтах, попадающих в результаты поиска.
Для информационных сайтов напрашивается заманчивое объяснение, что ссылки на источники информации повышают доверие к ней поисковых машин. В самом деле: например, научно-популярный текст без ссылок на источники – это профанация. Но такое объяснение – как минимум неполное: исходящие ссылки «работают» и для коммерческих сайтов, для которых оно явно не подходит. Правда, для информационных выборок «исходяще-ссылочные» параметры сильнее.
Мы уже давно сформулировали принципы текстового ранжирования, они подтверждались на самых разных выборках – и, конечно, информационные не стали исключением. Во второй части исследования этим принципам посвящен целый раздел. Вот некоторые из них.
Принцип антибуквализма: важны не «вхождения ключевика в точной форме», а содержательная релевантность запросу. Если переводить это в учет вхождений слов запроса, то оказывается, что разрозненные вхождения, в том числе с учетом синонимов и других «дополнительных» слов, важнее, чем вхождения запроса целиком.
Разница в подходах Яндекса и Google: в Google текстовая релевантность сильно коррелирует с позицией, тогда как в Яндексе такая корреляция гораздо слабее, но зато в целом страницы, попавшие в топ, значительно релевантнее тех, которым это не удалось («фона»).
Особая роль заголовков в Google: для и оба предыдущих принципа нарушаются. Лучше, если запрос входит в заголовок целиком, по возможности в точной форме и как можно ближе к началу. Идеал для Google – точное совпадение с запросом, и влияет это не столько на позицию, сколько на попадание в «широкий топ».
А совет тут будет, пожалуй, один – зато универсальный. Пользуйтесь нашим сервисом LSI-анализа на SearchLab.ru: он позволяет учесть все принципы текстового ранжирования сразу.
Когда мы считаем значения для выборок, для каждого запроса определяется медиана (у половины найденных сайтов меньше, у половины больше), а потом она усредняется по всем запросам выборки.
На информационных выборках в Яндексе набирается на 15-25 целых запросов, в Google – на 10-20, если считать все слова из запроса, в том числе встретившиеся по отдельности, в любом месте текста.
Это меньше, чем для коммерческих выборок, где больше всего вхождений слов запроса приходится на названия и краткие описания товаров, которых на странице могут быть десятки. Но это всё равно довольно много.
А рекомендации тут очень простые (извините, что приходится повторяться): пользуйтесь LSI-анализом в сервисе SearchLab.ru, там вам все разложат по полочкам – и каких слов не хватает, и какие лишние. Дело в том, что для каждого запроса результаты получаются разными, и поэтому универсальные рекомендации по количеству вхождений давать почти бессмысленно; лучше ориентироваться на конкурентов, попавших в топ. Именно это и обеспечивает LSI-анализ.
Обычно и Google, и Яндекс равнодушны к точным вхождениям – им вполне достаточно отдельных слов запроса или даже их синонимов в произвольном порядке, лишь бы текст был запросу релевантен. Но в заголовках Google хочет увидеть именно запрос целиком, и чем ближе к началу, тем лучше. Похоже, чем ближе заголовки к запросу, тем больше у страницы шансов быть «замеченной» Google'ом.
Но интересно, что влияет такая близость к запросу именно на попадание в достаточно широкий топ, а не на позицию внутри него. Такой способ учета текстовых параметров обычно характерен для Яндекса, а в Google они чаще влияют как раз на позицию – но вот с заголовками почему-то все наоборот.
А у Яндекса как раз все так, как обычно бывает у Google: относительно сильная – сильнее, чем для текста страницы – корреляция с позицией, и почти не видно влияния на попадание в топ (но оно может быть просто незаметно на фоне Google). Предпочтения полных и тем более точных вхождений запроса в Яндексе не видно – принцип антибуквализма действует, как обычно.
Если бы третья часть вышла пару месяцев назад, в ней было бы написано примерно так: страниц с коммерческих сайтов в информационной выдаче относительно немного, и обычно они занимают не самые высокие места. Это не то чтобы неправда – их действительно немного, процентов 20 в Яндексе и от четверти до трети в Google, и большинство из них правда находится за пределами первой десятки (хотя это же можно сказать и про информационные сайты). Но сейчас мне кажется правильнее расставить акценты иначе – более оптимистично.
Одна пятая и тем более четверть или треть мест в топе для сайтов, тип которых не соответствует типу запроса, – это скорее много, чем мало; это уже трудно назвать исключениями. Для сравнения – информационных сайтов в коммерческой выдаче меньше в разы.
При этом, например, в «Гаджетах» и в Яндексе, и в Google доля коммерческих сайтов в топ-10 примерно такая же, как в топ-30; многие информационные страницы коммерческих сайтов успешно «пролезают» и в первую десятку, и в первую тройку результатов поиска. То есть тезис о том, что они могут бороться только за места на периферии поисковой выдачи, тоже при ближайшем рассмотрении оказывается несколько преувеличенным.
Ну и главное, что теперь мы примерно понимаем, в какую сторону копать. Оказалось, что для коммерческих сайтов, и только для них, очень важно, чтобы их информационные страницы были как можно меньше похожи на коммерческие.
Мы подробно расскажем об этом в докладе на Optimization-2024 в середине октября – и, конечно, в третьей части исследования, работу над которой сейчас заканчиваем.
Когда поисковые машины отрабатывают коммерческие запросы, направленные на покупку товаров или получение услуг, коммерческие факторы помогают им убедиться в том, что за красивым и удобным сайтом стоит надежный бизнес, что этот бизнес можно рекомендовать пользователям, ищущим товары или услуги, и он их не обманет и не разочарует. Например, что есть быстрая доставка (если речь идет о товарах), есть гарантия и возможность возврата, есть разные способы оплаты, и т. п. Что есть акции и спецпредложения – раз уж ранжировать сайты по уровню цен поисковики пока не научились (или не считают это полезной стратегией). Что есть фотографии – лучше по несколько на товар, – отбор по параметрам, сравнение товаров и другие полезные функции.
Разумеется, для информационных запросов все это не релевантно, а значит, работать не может. И для информационных сайтов действительно не работает.
Но неожиданно оказалось, что для коммерческих сайтов на информационных запросах коммерческие параметры все-таки работают. Только работают они «наоборот». Не в плюс, а в минус. И не как сайтовые, а как страничные. Чем меньше на странице коммерческого (кнопка заказа, оплата, гарантия, доставка, спецпредложения и т. п.), тем больше вероятность, что страница будет допущена к информационному ранжированию. Читайте об этом в третьей части исследования, работу над которой мы сейчас заканчиваем. И приходите на мой доклад на Optimization-2024 – он будет как раз про то, как коммерческим сайтам успешно конкурировать с информационными на их поле.
Мы пока не смотрели. Недавно запустили новые выкачки – возможно, к конференции Optimization-2024 будут какие-то результаты.
Но в принципе факторы ранжирования меняются не так быстро и не так часто – по крайней мере та картина, которую видим мы. Я не ожидаю большой разницы за год. Может быть, как-то развились факторы, связанные с оценкой достоверности источников (E-A-T и всякое такое), но мы этого, к сожалению, не увидим: напомню, что мы работаем с параметрами, которые можем автоматически посчитать, а прямо отвечающих за это параметров у нас почти нет.
Про слитые факторы ранжирования
Работа с утечками – не совсем наш метод, мы стараемся получать объективную картину на основе анализа результатов поиска. Но, конечно, мы внимательно прочитали то, что тогда писали те, кто этот код старательно изучал, и попытались проверить некоторые гипотезы. В целом, извлечь из этой истории получилось совсем немного: несколько новых параметров, в основном технических; несколько восклицаний «ну мы же говорили!» или «гм, интересно»; небольшая корректировка наших собственных алгоритмов.
Трудно было бы ожидать чего-то другого – не думаю, что чьи-то еще попытки «реверс-инжиниринга» ранжирования Яндекса на основе опубликованных списков факторов или фрагментов кода были сильно более продуктивными. Во-первых, во многих случаях судить о гипотетических факторах ранжирования можно было только по их названиям. Во-вторых (и это важнее), факторы ранжирования – это только первичные ингредиенты, поступающие в большую мясорубку, которая называется «машинное обучение». Что там дальше с ними происходит, в каких соотношениях они смешиваются, какой обработке подвергается результат – доподлинно не знает никто, включая программистов инфраструктуры Поиска Яндекса (или как это у них там сейчас называется). Ну то есть они видят коэффициенты, выставленные по итогам машинного обучения, и метрики качества, которые с этими коэффициенты достигаются, – но и для них поиск во многом представляет собой черный ящик.
Когда представители поисковых машин в ответ на настойчивые расспросы вебмастеров и сеошников дают самые общие рекомендации – на уровне «думать о пользователях» или «повышать экспертность», – они не издеваются и не лукавят (ну, почти). В некотором смысле, именно так это и работает. Пользовательские предпочтения, «экспертность» и т. п. оцениваются асессорами или моделируются на основе их оценок, дальше автоматически подбираются коэффициенты, позволяющие максимизировать соответствующие метрики – и вуаля, после необходимого тестирования выпускается очередной апдейт.
Представьте себе, что вы знаете все параметры, учитываемые при ранжировании. Как бы это помогло вам понять, какие ручки в какую сторону крутить, чтобы эту самую экспертность повысить? Как вы узнаете, какие из этих параметров сильные, а какие слабые, какие учитываются со знаком «плюс», а какие – со знаком «минус»? Хорошо еще, что есть исследовательские команды вроде нашей, которые пытаются разобраться, что действительно важно, и рассказывают об этом.
Честно говоря, мы пока только очень предварительно ознакомились с обзорами этих документов, хотя они появились уже довольно давно. Надеемся, что скоро дойдут руки заняться ими подробнее. При этом мы, конечно, больше рассчитываем использовать их не как инсайды, источник тайных знаний, а как инсайты, источник вдохновения. Прежде всего, будем искать идеи новых параметров, которые мы сможем собирать, чтобы оценить их важность для ранжирования.
И, как всегда, скорее всего, окажется, что какие-то параметры, подсказанные Google, сильнее работают в Яндексе – как, впрочем, и наоборот.
Прежде всего, он мне очень не нравится – и вовсе не потому, что я считаю поиск Яндекса хуже поиска Google.
Вряд ли Google уйдет сам – скорее, его уйдут. Но и в это я слабо верю – не думаю, что наши компетентные органы в обозримом будущем на это решатся. Все-таки Google – это не только поиск, YouTube, Chrome, это еще и Андроид.
К тому же уход или блокировка – это, конечно, сокращение аудитории, но совсем не до нуля. «Замедление» YouTube уже привело к тому, что теперь даже сайты и приложения банков не отказываются работать при включенном VPN. Так что процентов двадцать пользователей возможную блокировку Google могут просто не заметить.
Но если серьезно – да, вероятность того, что мы останемся с одним поисковиком, к сожалению, далеко не нулевая. Некоторые владельцы сайтов от этого пострадают, некоторые скорее наоборот. SEO-индустрия под это легко подстроится и даже выиграет: тем, кто пострадает, нужно будет выправлять положение. Плохо будет пользователям.
Про искусственный интеллект
Искусственный интеллект в поиске используется уже давно – такой, который тогда существовал. И именно поисковые системы долгое время были на переднем крае разработки ИИ. Уже много лет формула ранжирования настраивается не вручную, а машинным обучением: набрасываются параметры, иногда довольно случайные, а искусственный интеллект сам подбирает коэффициенты таким образом, чтобы максимизировать метрики качества. Искусственный интеллект (надо сказать, пока местами довольно слабый) определяет релевантность текстов страниц запросу. Искусственный интеллект выявляет поисковый спам самых разных видов, включая накрутки поведенческих факторов.
Выводы из этого все давно знают, и их охотно транслируют сами поисковые машины, когда снисходят до общения с владельцами сайтов. Обмануть поисковые алгоритмы (которые давно уже не совсем алгоритмы) всё сложнее – хотя и не невозможно. Лучшая стратегия – действительно сделать свой сайт интересным, полезным, красивым, удобным и, главное, посещаемым, и тогда поисковые машины его оценят, полюбят и вынесут наверх.
Менее очевиден другой вывод, который тоже все знают, но о котором представители поисковых систем говорят менее охотно (хотя иногда и прорывается). Чтобы продвинуть свой сайт по запросам, надо сделать его похожим на те сайты, которые в выдаче по этим запросам занимают высокие места. «Будь как все» – как это ни печально, оптимальная стратегия поисковой оптимизации. Именно на этом основан LSI-анализ, который я выше уже дважды рекомендовал.
Но вы, наверное, имеете в виду постепенную замену «живых» результатов поиска виджетами, сгенерированными искусственным интеллектом – когда пользователю дается готовый ответ, и ему уже не нужно идти за ним на сайт. Тут поможет та же логика оптимизации, которая работает при любой агрегации. Если по товарным запросам на первые позиции стабильно попадают маркетплейсы, значит, нужно, чтобы твои товары лидировали среди предложений на маркетплейсе – и тогда, не мытьем, так катаньем, поисковый трафик по запросу конвертируется в твои продажи. Если по информационным запросам поисковик выдает готовый ответ, значит, нужно, чтобы этот ответ был взят с твоего сайта – и тогда часть трафика к тебе вернется (поскольку ссылки на источники в виджетах обычно все-таки есть). Для этого, в свою очередь нужно, чтобы у тебя этот ответ был и чтобы он был хорошо оформлен как содержательно, так и технически (например, с помощью микроразметки).
На поисковые системы давят универсальные чат-боты вроде ChatGPT, которые тоже дают ответы на запросы пользователей, и часто делают это лучше. Разработчикам поисковых систем приходится с ними конкурировать – и, похоже, именно эта конкуренция (а то и конвергенция, что мы видим на примере Bing) будет определять направление развития поиска в ближайшей перспективе.
Будут стираться границы между поисковым запросом, по которому я ищу существующие тексты (картинки, видео и т. п.) и заданием на порождение нового текста (картинки, видео). Иногда это будет удобно, но, боюсь, слишком часто нам будет очень не хватать старого доброго Яндекса (или Google), в котором можно было запросить текст в кавычках для поиска точных вхождений и даже надеяться, что (иногда) найдется именно то, что ты ищешь.
Далеко не факт, что в этих условиях у разработчиков поисковых машин дойдут руки до более частных задач, которые пока не решены или решаются плохо, и в которых искусственный интеллект тоже мог бы помочь. Среди таких задач – например, оценка авторитетности сайтов; оценка привлекательности и выгодности товарных предложений (низкая цена при условии, что товар есть в наличии, и он «настоящий»); определение интентов запроса. Все это уже так или иначе работает, но пока слишком далеко от идеала.