Апдейт поисковой системы Яндекс от 01.11.13 не был обычным. Он даже не сопровождался появлением новых проиндексированных документов в основном индексе, а был направлен на выявление сайтов созданных «не для людей» и жестким ограничением числа страниц в индексе с подобных сайтов.
Новый алгоритм чуть позже получил название АГС-40 и пока оптимизаторы разбираются, был это именно алгоритм или стрельба по сайтам из гранатомёта мы постараемся разобраться в причинах наложения санкций и основных факторах, которые анализирует Яндекс для наложения данного фильтра.
Изложение будет вестись от лица оптимизаторов, а не вебмастеров, и мы постараемся сделать акцент на настройку фильтров для подбора качественных доноров, «доноров-сделанных-для-людей».
Масштабы проблемы
Ситуацию после ввода АГС-40 надо интерпретировать как новую реальность с изменившимися правилами игры. Вряд ли целью антиспамеров из Яндекса было показать плохие площадки. Скорее всего, надо исходить из того, что нахождение страницы в публичном поисковом индексе и является оценкой полезности контента этой страницы. Поэтому большое количество страниц в поиске — это полезность определенного ресурса для поисковой системы.
Численные оценки пессимизации:
- при покупке по автофильтрам с последующей фильтрацией — выпадения составили порядка 20-30% с оценкой по хостам;
- при покупке по вайтлистам с постфильтрацией — 5-10%. Удаляются преимущественно площадки с дешевыми ссылками.
Ещё при анонсе АГС-40 упоминалось множество используемых факторов. В настоящее время этих факторов может быть ещё больше, что улучшает возможности для машинного обучения. При этом на стороне поисковой системы можно делать довольно жесткие оценки. Например, если брендовые запросы (ассоциации с брендом и доменным именем) соотнести с «сеошными» запросами по определенному домену, станет очевидно, что ссылочные площадки не пользуются популярностью, зато по ним много запросов с проверкой индексации (только не надо накручивать доменные запросы, это может ухудшить положение площадки). И такие возможности, скорее всего, могут привести к дальнейшим шагам по ужесточению фильтрации плохих площадок.
Также после ввода АГС-40 больше нет смысла в концепции, что вечные ссылки являются более перспективным видом ссылочного продвижения, теперь это инструментарий, который необходимо использовать строго в зависимости от его целесообразности.
Задача оптимизатора
Даже в случае качественного подхода к наращиванию ссылочной массы, принятого в нашей компании, алгоритм затронул порядка 5% ссылочной массы. Это говорит о том, что при тщательном отборе доноров, число площадок, попавших под фильтр, не стремиться к нулю.
Оптимизатор решает в процессе наращивания ссылочной массы непростую задачу:
С одной стороны, всегда имеется некоторый максимальный «ссылочный бюджет», который сильно ограничивает масштаб возможных действий по улучшению внешних факторов ранжирования.
С другой стороны, требуется подбирать качественные доноры и страницы на них для размещения своих ссылок, которые:
- быстро индексируются;
- стабильно находятся в индексе;
- передают PR;
- передают анкорный вес;
- не классифицируются поисковой системой как спам.
Разбор полёта
Разберем ряд примеров сайтов, которые подверглись санкциям со стороны Яндекса в период с 01.11.2013 по 12.11.2013 и постараемся подробно разобрать, какие же именно факторы позволили поисковой системе утверждать, что сайт является ГС [терминология Яндекса].
1. http://stroytechcon.ru/
*Кликните, чтобы увеличить.
Причины:
- Наличие внешних ссылок на сторонние ресурсы прямо из текста статей говорит о том, что сайт близок к дорвею с точки зрения Яндекса.
- В дополнение к ссылкам из текста, идёт и блок со ссылками в нижней правой части сайта.
- Мизерная посещаемость по достоверному источнику LiveInternet подтверждает отсутствие аудитории у сайта (заходов с поисковых систем, ядра аудитории, сторонней рекламы).
- Общее количество исходящих ссылок с сайта приближается к показателю «2 штуки на страницу», если ориентироваться на индекс Solomono.
- Сайт выполнен на Joomla.
- Ссылка на контакты http://stroytechcon.ru/kontakty.html выдает 404-ошибку.
- При переходе на ENG-версию ничего не происходит.
2. http://rxmagaz.ru/
*Кликните, чтобы увеличить.
Причины:
- Мизерная посещаемость по достоверному источнику LiveInternet подтверждает отсутствие аудитории у сайта (заходов с поисковых систем, ядра аудитории, сторонней рекламы).
- Сайт выполнен на Joomla.
- Отсутствуют реальные контакты: (http://rxmagaz.ru/contacts.html), есть только обратная связь и город.
- Рассматривая детальную страницу (http://rxmagaz.ru/catalog/details/564/canon-a4-photo-paper-plus-glossy-20l-id-26191.html?pop=0) ,сразу становится понятно, что заполнялся каталог не человеком, а скриптом. Есть ошибки в наполнении, и нет никакой возможности купить или заказать товар.
- В подвале сайта расположены 3 блока, оформленные как ссылки, при этом это не является ссылками на какие-либо обзорные статьи, а представляет собой перечисление поисковых запросов компьютерной тематики. Это само по себе является спамным приёмом и описано в руководстве вебмастерам.
3. http://www.mchs-ak.ru/
*Кликните, чтобы увеличить.
Причины:
- В данном случае сайт представляется «надежным» с точки зрения его возраста и наличия сайта в каталоге DMOZ. Но стоит обратить внимание на неуникальность контента и явно устаревший дизайн, которым нет возможности эффективно пользоваться.
- Не внушает доверия наличие слова «пр*ститутка» на сайте МЧС. И другие ссылки на сайты для взрослых.
- Не внушают доверия стили меню (ссылки не подчеркнуты и выделение сомнительное).
- Не внушают доверия места расположения ссылок.
- Стоит обратить особое внимание на копирайты (выделены на второй иллюстрации), там указано другое доменное имя — это верный признак некачественного сайта.
- Новости у нормального сайта не могут не обновляться с 2009 года.
- На главной странице приводится просто список новостей 2006-2009 года выпуска.
4. http://kollaider.net/
*Кликните, чтобы увеличить.
Причины:
- Мизерная посещаемость по достоверному источнику LiveInternet подтверждает отсутствие аудитории у сайта (заходов с поисковых систем, ядра аудитории, сторонней рекламы).
- Не внушает доверия наличие слов «интернет секс шоп» на сайте данной тематики.
- Сомнительная и запутанная структура сайта (как URL, так и в навигационном плане).
- Копирайт на сайте 2012 года, а не 2013 (текущий).
- Отсутствует станица контактов, что всегда подозрительно у сайтов подобной тематики.
- Контент оформлен очень невзрачно бледно-серым цветом, а акцент сделан на ссылках. В самом тексте очень много выделений «не для людей» (курсив и выделение жирным шрифтом).
- Три ссылки на одной странице, что для сайта такого качества «на грани».
5. http://www.mskrem.ru/
*Кликните, чтобы увеличить.
Причины:
- Мизерная посещаемость по достоверному источнику LiveInternet подтверждает отсутствие аудитории у сайта (заходов с поисковых систем, ядра аудитории, сторонней рекламы).
- Три ссылки со страницы новости в подвале являются «на грани».
- Очень слабое соотношение числа входящих и исходящих ссылок на сайт и с сайта по данным Solomono.
- Сквозная ссылка на страницу для обмена ссылками http://www.mskrem.ru/link.htm (сейчас выдает 404-ошибку, то есть сквозная битая ссылка).
- Статьи являются сканами книг, что легко видно по оформлению и выделениям и нумерации рисунков (которая отсутствует у самих рисунков). Само наличие сканированных статей является фактором для Яндекса в пользу признания сайта ГС и наложения санкций.
- Сканированный и неряшливо оформленный контент асессоры поисковой системы размечают как спам.
- Что печально, даже сканированный контент, при этом, не является уникальным.
6. http://erdic.ru/
*Кликните, чтобы увеличить.
Причины:
- Посещаемость сайта по счетчикам оценить не удается, но можно оценить её косвенно по качеству контента и оценивая пользу, которую приносит ресурс своему посетителю.
- Внешние ссылки с сайта являются скрытыми с помощью файла стилей.
- На главной странице имеется 418 внутренних ссылок, которые реализованы с помощью разворачивающегося «меню». Эти типичная тактика сайтов сделанных для продажи ссылок и стремящихся загнать в биржу максимум страниц с УВ=2.
- Контент на главной и целом ряде страниц неуникальный.
- На сайте отсутствуют контакты, только форма обратной связи.
- Последний опрос от 2009 года: http://erdic.ru/voting.html, что говорит об отсутствие обновления сайта и немыслимо для нормального сайта подобной тематики.
7. http://www.bid.ru/
*Кликните, чтобы увеличить.
Причины:
- Для сайта данной тематики (некоммерческий ресурс) и размера (более 29 000 страниц в индексе Google) наблюдается мизерная посещаемость по достоверному источнику Rambler Top100, что подтверждает отсутствие интересного контента и какого-либо ядра аудитории.
- По размещению рекламы предлагается связываться с людьми на другом домене, что говорит о том, что информация на данном сайте может получаться благодаря простому парсингу новостей.
- Имеется частичная копия контента сайта на поддомене: http://references.bid.ru/.
- Отсутствуют контакты, только шаблонная форма обратной связи.
- Не самое «простое» окружение, среди сайтов на том же IP: http://www.bing.com/search?q=ip%3A194.87.255.210&setplang=ru-RU рассматривая которые, можно предположить что они также могут в скором времени попасть под санкции поисковых систем.
Можно разобрать ещё множество примеров, но мы постараемся обобщить полученные знания и сделать ряд выводов уже в следующей части статьи.
Факторы, влияющие на наложение фильтра АГС-40
Обобщая предоставленные выше примеры и анализ предыдущих релизов алгоритма АГС, можно выделить следующие важные факторы, которые учитывает поисковая система (приводятся с комментариями автора):
- Отношение трафика на сайте к числу страниц в индексе поисковой системы (помогает оценить привлекательность сайта и качество большей части страниц).
- Наличие ядра аудитории (люди любят возвращаться на полезные ресурсы).
- Шаблонность сайта (помогает выявить сетки сайтов сделанные под монетизацию).
- CMS сайта (качественные ресурсы выбирают платные системы управления).
- Уникальность контента по шинглам (помогает оценить уникальность текстов и их значимость).
- Качество текста (поиск синонимайзеров, шаблонов, генераторов на основе цепей Маркова и т.п.).
- Количество исходящих коммерческих ссылок к числу страниц в индексе поисковой системы (позволяет быстро выявить сайты торгующие ссылками).
- Средний CTR сайта в выдаче (позволяет оценить привлекательность ресурса в поиске).
- Среднее время проведения пользователей на сайте (помогает оценить качество контента, навигацию, удобство использования сайта).
- Среднее время просмотра страниц по отношению к объему текста на страницах (позволяет оценить среднюю привлекательность текстового содержимого на сайте, если на сайте большие статьи и их никто не читает, то зачем они нужны?).
- Динамика прироста контента на сайте (новый сайт с 3 000 000 страниц выглядит не всегда естественно, также как и появление 300-500 новых статей в сутки, при отсутствии посещаемости).
- Окружение сайта (сетки некачественных сайтов часто располагаются на одном хостинге (IP), так ведь удобно? также решили и представители Яндекса).
- Доля роботизированных запросов, по которым был показан сайт к общему числу показов сайта в выдаче (позволяет выявить сайты, которые показываются преимущественно по запросам вида [пара слов site:host.ru] и тому подобным).
- Ряд прочих факторов (известны и другие метрики).
После расчета факторов мы ищем закономерности
Дальнейшая работа с факторами производится по следующей схеме:
- Рассчитываем значения упомянутых выше факторов для сайтов, находящихся в индексе.
- Формируем обучающую выборку (сайты, размещенные асессорами Яндекса как «спам» и «не спам»).
- Производится обучение формулы или, иногда, построение аналитической формулы.
- Производится тестирование/отладка/настройка формулы.
- Теперь мы готовы определить является сайт достойным для наложения санкций или нет?
Критерии работают в совокупности!
Важно осознавать, что один фактор не всегда в состоянии «вытянуть» ваш сайт «за уши» из-под санкций, так как работают группы и комбинации перечисленных выше факторов. Но при этом, каждый фактор может обладать определенной силой, то есть иметь ту или иную значимость в формуле.
По нашей оценке, наибольшую значимость имеют:
- поведенческие факторы;
- факторы, построенные на анализе окружения сайта;
- факторы, связанные с качеством текста.
И несколько меньшую силу несут факторы, связанные с анализом исходящей ссылочной массы.
Выводы и дальнейшие действия
Анализ ситуации показал, что в ноябре Яндекс задал новую планку. Изменилось понятие минимального качества сайтов, которые он готов включать в поисковый индекс и предлагать своим пользователям.
Это должно пойти на пользу общему состоянию Рунета и придать дополнительный заряд свежести бравым ребятам, которые делают сайты под монетизацию.
Оптимизаторам же остается потуже затянуть свои пред- и постфильтры для отбора ссылочных доноров и подключить новые факторы , основанные на поведенческих метриках, качестве контента и окружении сайтов. При этом сайты, на которых были размещены только «вечные ссылки» не показали особого преимущества и большей устойчивости по отношению к напористому алгоритму АГС-40.
Делайте хорошие сайты!
Список литературы для ознакомления
- Конференция «All in Top Conf 2014», доклад «Рабочие критерии оценки доноров для формирования ссылочного профиля сайта», 2014, http://www.allintopconf.ru/articles/9.html#main
- Советы вебмастеру, http:\/\/help\.yandex\.ru\/webmaster\/yandex-indexing\/webmaster-advice\.xml
- Тексты оптимизировались, переоптимизировались, но не выоптимизировались, 2011, http:\/\/help\.yandex\.ru\/webmaster\/yandex-indexing\/webmaster-advice\.xml
- Передача «Практика SEO» на MegaIndex.TV, 2013, http://www.megaindex.tv/programs/praktika_seo/
- Matrixnet, 2010, http://www.pixelplus.ru/images/outside/Algoritm_MatrixNet_Gulin.pdf
- Цикл образовательных видеоуроков по SEO и интернет-маркетингу, 2013, https://www.youtube.com/user/pixelplusru/videos
Автор: Дмитрий Севальнев, компания Пиксель Плюс