Михаил Волович («Ашманов и партнеры»): Вторая волна «Баден-Бадена» должна смыть «текстовые помойки»

В начале прошлого года Яндекс вновь напомнил SEO-специалистам о том, как важно размещать на сайтах полезные тексты, и подарил вторую жизнь понятию «переоптимизация», запустив алгоритм «Баден-Баден». В связи с этим многие вебмастера переключились на поиски волшебной формулы качественного текста, который понравится и пользователям, и Яндексу.

О влиянии текстовых факторов на ранжирование, риске попасть под «Баден-Баден» и признаках качественного текста мы поговорили с Михаилом Воловичем — руководителем Лаборатории поисковой аналитики «Ашманов и партнеры», одним из создателей нового сервиса проверки текстов «Тургенев».

***

2017 стал для российских вебмастеров годом работы над текстами. Это связано и с «Баден-Баденом», и в некотором смысле с алгоритмом «Королев». Насколько, по данным Лаборатории поисковой аналитики «Ашманов и партнеры», текстовые факторы сегодня важны для Яндекса?

На первый взгляд, для коммерческих запросов совершенно не важны. Корреляции с позицией в Яндексе есть только для небольшой части текстовых параметров, да и то слабые. В первой тройке и в третьей десятке результатов поиска количество вхождений запроса в текст страницы примерно одинаковое — и то же самое можно сказать про title, про заголовки h1– h4 и т. п.

Но на самом деле, несмотря на все это, текстовые факторы критически важны. Если сравнить ТОП 30 Яндекса по коммерческим запросам и не менее релевантные страницы, которые в него не попали (из ТОП 30 Google и Mail.ru), окажется, что значения почти всех текстовых параметров в ТОПе Яндекса статистически достоверно — и очень заметно — выше.

Это скорее всего означает, что текстовые факторы работают на предварительных этапах ранжирования — когда отбирается примерно тысяча результатов, которые в дальнейшем проходят подробное ранжирование.

То есть если у вас на странице недостаточно вхождений запроса (или отдельных слов из запроса), то ваши шансы попасть в ТОП Яндекса резко падают.

Так, по запросу «люстры» в ТОП 30 Яндекса есть только два результата, где слово «люстра» встречается менее 40 раз, — lustron.ru с 23 вхождениями и люстра.рф с четырьмя (плюс еще одно в доменном имени). Тогда как в ТОП 30 Google есть 5 страниц, где «люстра» встречается менее 10 раз. Среднее количество вхождений «люстры» в текст страницы для ТОП 30 Яндекса — 64, против 48 для Google и 30 — для страниц из топов Google и Mail.ru, не попавших в ТОП Яндекса.

Насколько ситуация с текстовыми факторами в Google отличается от Яндекса?

В Google, наоборот, есть заметные корреляции между текстовыми факторами и позицией — чем ближе к ТОП 1, тем выше значения. Но зато не видно «входного фильтра», как в Яндексе, и средние значения текстовых параметров обычно несколько ниже.

Но много и общего. Так, в обоих поисковиках факторы ранжирования тем сильнее, чем дальше мы уходим от «буквы» запроса. Точная форма запроса, похоже, уже не выделяется поисковиками среди всех прочих. Количество отдельных слов запроса, разбросанных по тексту, важнее, чем то, сколько раз они встретились вместе. Важны также синонимы слов запроса и в еще большей степени «дополнения» — те слова, которые сами поисковики выделяют в снипетах.

Подробнее читайте об этом в нашем большом аналитическом отчете по факторам ранжирования, подготовленном к конференции Optimization 2017.

Вернемся непосредственно к Яндексу. В блоге поисковика сказано, что «Баден-Баден» ориентирован на переоптимизированные тексты. Вы анализируете сайты под «Баденом». По результатам ваших наблюдений, на какие именно признаки ориентируется алгоритм Яндекса? За что сайты попадают под «Баден-Баден»?

В принципе, в блоге Яндекса все сформулировано достаточно четко: «В них много повторяющихся ключевых слов и неестественных речевых оборотов, но мало полезной информации. Мы называем такие тексты переоптимизированными ...».

Легко видеть, что Яндекс понимает переоптимизацию расширительно — включая в нее не только «переспам ключевиками», но и низкую естественность, бесполезность для пользователя.

Иначе говоря, Яндекс не любит SEO-тексты. Причем он их не любит давно (см. мантры про сайты, «сделанные для людей»), но вот сейчас научился их распознавать и решился за них наказывать.

Как именно он их распознает — это отдельный и значительно менее важный вопрос. Факторов может быть множество, причем относящихся ко всем трем составляющим SEO-текста — обилию ключевиков, неестественности и малой полезности. Различные частотные параметры (как связанные с запросами, так и не связанные); лексика, характерная для SEO-текстов; длина и позиция текстового блока; наличие скрытого текста; структурированность текста. И это далеко не полный список.

Скорее всего, задача решалась в сугубо практическом ключе. Были по максимуму использованы факторы, которые уже применяются Яндексом для других задач (например, при ранжировании); к ним было добавлено какое-то количество новых факторов, разработанных специально под эту задачу. Машинное обучение запускалось столько раз, сколько потребовалось, чтобы достигнуть нужной полноты и точности. Дальше провели А/В-тестирование — и в бой.

Мы не пытались выяснить, что именно учитывает Яндекс — для этого явно недостаточно данных, и это в конечном счете не так важно. Мы пытались научиться выявлять и оценивать SEO-тексты. И, мне кажется, у нас это неплохо получилось. Причем важно, что мы не просто даем суммарную оценку, а раскладываем все по полочкам и тем самым показываем, что было бы полезно исправить.

Какой процент некачественного контента допустим на странице? Сколько его должно быть, чтобы опасаться постраничного фильтра? И сколько – чтобы под фильтр попал весь сайт?

Проценты особой роли не играют. Для того, чтобы начать бороться с SEO-текстами, Яндекс должен был сначала научиться хорошо понимать структуру веб-страницы — выделять на ней навигационные области, «витрину», отзывы, объявления, разные другие блоки — и SEO-текст. Размер «бочки меда» (содержательной части страницы) не имеет значения. Важен размер «ложки дегтя». Чем она больше, тем хуже. Но она может быть и относительно небольшой. Скажем, двух тысяч знаков определенно хватает. Может, по-видимому, хватить и пары абзацев среднего размера — меньше тысячи знаков, сотня с чем-то слов. Точнее сказать трудно. Дело в том, что есть три типа страниц, важных для «Б.-Б.»:

1) попавшие под страничный фильтр;

2) попавшие под сайтовый фильтр;

3) те, на которые указывает техподдержка Яндекса.

И ни одни из них не дают полной ясности.

Про страничный фильтр мы, к сожалению, знаем довольно мало: среди клиентов «Ашманов и партнеры» таких не было; пользователи «Тургенева» чаще сообщают о сайтовом фильтре, публикаций «в открытых источниках» и т. п. находится немного. Известные нам случаи распадаются на две категории — вопиющие (большие «махровые» SEO-тексты, «дегтя» много) и сомнительные (трафик упал незадолго до анонса нового алгоритма, поэтому хозяин сайта считает, что это «Баден-Баден», но мы очень в этом сомневаемся).

Про сайтовый фильтр известно гораздо больше. Но точно определить, какие именно страницы учитывались при наложении санкций, практически невозможно, поэтому для определения порогов они тоже не подходят. На пострадавших сайтах есть страницы с большими SEO-текстами, явно заслуживающими «Баден-Бадена», — и в их число часто попадает главная страница сайта и страницы основных разделов. А есть и страницы с совсем короткими текстовыми блоками, и вообще без них. За что сайт наказан, по этим данным понять легко, а вот где Яндекс проводит границу — трудно.

Наконец, третий тип страниц — те, на которые указывает сам Яндекс, отвечая на запросы вебмастеров. Эти страницы вроде бы конкретные, и их сколько-то известно, но беда в том, что они часто не слишком показательны. Грубо говоря, если бы все такие (и худшие) страницы оказались под санкциями, Яндексу просто нечего было бы находить. Можно себе представить, что такие страницы вызывают у роботов некоторые претензии, но во всех известных нам случаях на тех же сайтах находились гораздо худшие страницы (включая часто голову сайта). Эти сайты действительно заслужили «Б.-Б.» — но страницы, которые считает нужным показать Яндекс, сыграли в этом далеко не первую роль.

Если говорить о рынке, по вашим наблюдениям, многие ли вебмастера «одумались» после запуска «Баден-Бадена»?

На удивление многие, несмотря на очень точечное пока применение санкций.

Сейчас четко видны две основные конкурирующие стратегии — перестраховаться или ждать, когда клюнет жареный петух. Вторую из них мы очень не рекомендуем.

Чтобы не попасть под санкции, достаточно убрать или отредактировать откровенно неестественные тексты. Они обычно видны невооруженным глазом — но можете проверить у «Тургенева». Чтобы избавиться от уже выписанных вам санкций, нужно пройти квест — догадаться, чем Платону не понравилась та страница, которую он прислал, и сколько еще таких. Профилактика дешевле лечения.

В декабре вы анонсировали текстовый анализатор «Тургенев». Расскажите, как, на каких данных вы обучали анализатор? Какая была выборка?

Никакого машинного обучения там на самом деле нет. Есть алгоритмы и словари. Они разрабатывались и отлаживались на материале нескольких сот страниц, попавших под «Баден-Баден», примерно с пяти десятков разных сайтов, — а также многих тысяч других текстов, качество которых мы оценивали самостоятельно.

Строго говоря, мы видели свою задачу в том, чтобы научиться эффективно автоматически выявлять переоптимизированные тексты — и, что не менее важно, объяснять, что именно с ними не так. Машинное обучение не позволило бы это сделать.

Кстати, даже в тех случаях, когда прямой угрозы «Б.-Б.» нет, «Тургенев» полезен для вебмастеров и копирайтеров, т. к. помогает заметить и исправить неестественные повторы, стилистические ошибки и другие подобные проблемы.

Как «Тургенев» определяет, что тот или иной контент нужно добавить/удалить? С какими материалами сервис сравнивает текст при анализе? Например, с аналогичными, которые уже есть в базе; взятыми из выдачи в режиме реального времени; основывается на средних показателях всего контента и т.д.?

Мы сначала разработали параметры, отвечающие за риск «Баден-Бадена», в рамках Лаборатории поисковой аналитики, и только потом появилась идея сделать общедоступный сервис. Поэтому у нас есть две разных версии «Тургенева»: тот, который опубликован на turgenev.ashmanov.com, для всех, — и «внутренний Тургенев», для наших клиентов. Внутренняя версия алгоритма работает с веб-страницами и учитывает контекст запросов, по которым они должны находиться. Она, например, оценивает размер текстового блока и «водность», исходя из показателей страниц в ТОПе Яндекса по конкретным запросам.

Общедоступная версия работает только с текстами (это ограничение позволило сделать сервис бесплатным) и поэтому ей не с чем сравнивать проверяемый материал. Он просто оценивается по нескольким параметрам, набирает штрафные баллы, если есть за что, и в итоге по сумме баллов за разные параметры оценивается риск. Мы не рекомендуем добавить или удалить контент — мы просто выявляем проблемы, а что с этим делать, решать уже автору текста или хозяину сайта.

На вкладке «Повторы» считаются частоты слов и словосочетаний, строится простая модель, по которой оценивается наличие «сверхчастых» слов. Обычно в SEO-тексте это слова, по которым он (пере)оптимизирован. Также оценивается общее количество повторов в тексте — для этого используется любимый сеошниками параметр со странным названием «академическая тошнота», который нам пришлось переизобрести, поскольку его рецепт, как оказалось, держится в секрете. Пороги по нему выставлены довольно высокие — штрафные баллы идут начиная с академической тошноты 10,5, т. е. «наказываются» только тексты с действительно высоким количеством повторов. И еще текст может получить балл за очень большую частоту союза «и» — это уже скорее про стилистику, чтобы ловить тексты, в которых «опытные и знающие врачи гарантируют кодирование и избавление от пагубной привычки».

На вкладке «Стилистика» просто считаются вхождения в текст слов и словосочетаний нескольких типов. Это прежде всего обороты речи, характерные для плохих SEO-текстов. Например, фрагменты чтобы убедиться в данном выборе, предлагаем вам просмотреть ключевые особенности изделия или всем известно, что стиральная машина является важным атрибутом ванной комнаты были разобраны нами на цитаты почти без остатка, и теперь любой текст, в котором встретится «убедиться в данном выборе», получит за это некоторое количество «стилистических квантов», которые после некоторого порога превращаются в штрафные баллы. Кроме того, отмечаются разнообразные стилистические ошибки, канцеляризмы, излишне разговорные обороты и многое другое. Они тоже взяты из SEO-текстов, и хотя многие из них сами по себе не делают текст неестественным, если их много, это становится проблемой, серьезность которой выражается в штрафных баллах.

На вкладке «Запросы» отмечаются встретившиеся в тексте запросы из среднего по размеру «коммерческого» списка (около двух с половиной миллионов). Если покрытие запросами большое, это может свидетельствовать о переоптимизированности.

Оставшиеся две вкладки дают баллы реже и совсем понемногу. «Водность» — за низкую долю содержательного текста. «Удобочитаемость» — за текст, в котором много длинных предложений и длинных слов.

Насколько данные по одному и тому же тексту могут разниться изо дня в день?

Обычно совсем немного. Мы продолжаем совершенствовать алгоритмы и пополнять словари, но вероятность, что для вашего текста что-то заметно поменяется, очень мала. Редкое исключение — если именно ваш текст мы сегодня использовали для пополнения словарей.

Насколько точно «Тургенев» определяет риск попадания сайта под «Баден-Баден»?

Каждый раз, как мы узнаем о новом примере сайта или страниц, попавших под фильтр, мы проверяем на них работу «Тургенева». В 95% случаев он справляется — показывает критический или высокий риск. В этом смысле все хорошо — только мы рекомендуем проверять по несколько текстов с сайта (и обязательно именно SEO-тексты, а не страницы целиком).

Но это, естественно, не означает, что любой текст, для которого «Тургенев» показал высокий риск, завтра попадет под фильтр. Высокие баллы всего лишь показывают, что текст неестественный, переоптимизированный и нуждается в редактировании. Таких в ТОПе Яндекса до сих пор очень много — в том числе и на первых позициях, особенно по информационным запросам. Почему — это вопрос не к нам.

Представители Яндекса, когда их обступают сеошники и наперебой спрашивают, почему мой сайт под фильтром, а такой-то, еще гораздо хуже, на свободе, обычно отвечают: «Еще не вечер, всему свое время».

Нам остается только присоединиться к этому ответу.

Правда, ложные срабатывания возможны, если проверяются тексты, на которые «Тургенев» не рассчитан. Например, многие законы и другие юридические документы получают много баллов за повторы и еще некоторое количество — за стилистику и удобочитаемость. Да, законы — тоже не самые естественные тексты, написанные далеко не лучшим стилем, хотя и не переоптимизированные.

«Тургенев» заточен только под коммерческие сайты? Или для информационных порталов он тоже подойдет? Ведь, казалось бы, SEO-текст – он и там, и там SEO-текст.

SEO-тексты бывают разные, и характер проблем, прежде всего стилистических, в переоптимизированном информационном тексте несколько иной, чем в коммерческом. Из текстов вроде прежде чем ответить на вопрос: "«Доксициклин» - от чего эти таблетки?", следует поведать, какой состав имеет данный медикамент нужно собирать характерные именно для них маркеры.

Мы этим понемногу занимаемся, и такие тексты тоже ловятся, хотя и несколько хуже, чем коммерческие. Например, страница, с которой взята приведенная в предыдущем абзаце цитата, получила всего 5 баллов, хотя заслуживает, конечно, большего. Но с другой стороны, этот текст красуется в ТОПе Яндекса на самой первой позиции (по запросу «доксициклин таблетки» на момент написания). Когда Яндекс начнет применять «Баден-Баден» к «текстовым помойкам», мы уделим им то внимание, которого они заслуживают, и они будут хорошо ловиться.

Мы по-прежнему не знаем ни одного подтвержденного примера применения «Б.-Б.» к информационным сайтам. Будем очень признательны, если кто-то из читателей нам их пришлет — как, впрочем, и любые примеры «Баден-Бадена». Интерес тут взаимный — мы с удовольствием обсудим с вами ваш случай, и он поможет нам улучшить сервис для всех.

Как вы планируете развивать «Тургенев», в каком направлении?

Над глобальными планами мы пока всерьез не задумывались, а локально работаем сразу над несколькими вкладками. Например, собираемся кардинально улучшить вкладку «Запросы» — и заодно ускорить выдачу ответов (факторы, связанные с запросами, сейчас считаются дольше всех остальных).

Постоянно совершенствуется «Стилистика». Около двух месяцев назад, в момент запуска «Тургенева», объем словарей составлял около 16 500 маркеров — сейчас их уже более 20 тысяч. Мы работаем не только над пополнением словаря, но и над его чисткой — убираются или уточняются «шумящие» маркеры. И постоянно совершенствуются подсказки — нам хочется, чтобы «Тургенев» не просто показывал потенциально проблемные места, но и понятно объяснял, что в них не так.

Кроме того, мы продолжим работу над справочным аппаратом к «Тургеневу» — мы хотим, чтобы он помогал писать хорошие тексты.

И еще мы активно работаем над сервисами для наших клиентов — объединяем «внутреннего Тургенева» с модулем, формирующим задание для копирайтеров. Чтобы было удобно работать над страницей сайта сразу в обоих направлениях — и добавлять на нее то, чего не хватает, и контролировать, чтобы на ней не было ничего лишнего.

Ссылки, SEO-тексты… Как думаете, каким будет следующий «удар» Яндекса?

И в «Минусинске», и в «Баден-Бадене» Яндекс решает сразу две задачи: уменьшить груз того, что он считает поисковым спамом, и ослабить негативное влияние поиска на «экосистему» Рунета. Потому что сотрудники Яндекса прекрасно понимают, что и засилье SEO-ссылок, и засилье SEO-текстов они сами в некотором смысле породили.

Победа над «продажными ссылками» и (ожидаемая) над переоптимизированными текстами — далеко не единственные этапы этого пути. Уже лет десять назад, например, были побеждены дорвеи — тоже порождение поисковиков. Сейчас уже несколько лет идет борьба с накрутками поведенческих факторов. А скоро придется всерьез бороться и с накрутками коммерческих факторов — вроде фиктивных отзывов или фейкового телефона 8(800).

Думаю, «Баден-Баден» еще далеко не исчерпан — мы пока видели только первую волну, следующая должна смыть, в частности, «текстовые помойки». И значительно усилить требования к коммерческим сайтам. Так что до новых встреч на «Тургеневе». И на нашем мастер-классе — он пройдет 12-13 апреля в Кампусе Сколково на конференции eTarget.

(Голосов: 8, Рейтинг: 5)