В октябре 2010 года
Возник ряд вопросов:
- Как Яндекс относится к ссылкам с таких сайтов?
- Как Яндекс относится к ссылкам с сайтов, на которых встречаются adult-слова (ведь не все вебмастера модерируют, например, продаваемые ссылки со своих площадок, либо на сайте встречаются омонимы adult-словам)?
- Как Яндекс относится к ссылкам со страниц, на которых встречаются adul-слова?
Используя различные выборки самой крупной биржи ссылок Sape.ru, была составлена следующая репрезентативная таблица, из которой видно, насколько засорена донорская база ссылок.
Таблица 1. Характеристики биржи Sape
№ п.п |
Выборка сайтов |
Количество |
1 |
Всего сайтов в базе |
176228 |
2 |
Количество сайтов в основной базе |
125060 |
3 |
Количество сайтов сомнительного содержания |
51169 |
4 |
Количество сайтов основной базы, в текстах которых встречаются adult слов |
2232 (2%) |
5 |
Количество сайтов основной базы, в title которых встречаются adult слов |
1126 (1%) |
6 |
Число документов с adult словами |
41957013 |
По процентам, сайты с вхождениями adult-слов составляют менее 2%, однако число документов достаточно большое. На фоне данных цифр было принято решение провести исследование следующего содержания:
- Выяснить, существует ли подобный фильтр по отношению к донорам.
- Провести корреляционный анализ между позициями анкоров и вероятностью попадания донора под фильтр.
- Выявить вероятность попадания ссылок с популярных бирж под семейный фильтр.
Типы сайтов с adult-контентом
Все сайты с контентом, на котором встречаются adult-слова можно разделить на 3 группы.
Первая группа — непосредственно сайты со «взрослым» содержанием.
Вторая группа — сайты, на которых встречаются adult-слова или ссылки на adult-сайты с соответствующими анкорами.
Третья группа — новости, медицинские сайты, сайты, в которых встречаются соответствующие омонимы.
Рис. 1. Типы сайтов с adult-контентом
Настоящие adult-сайты и ссылки с них
Для анализа ссылок с подобных доноров была отобрана небольшая база, которая исследовалась с помощью забытой методики «непот»: [(«уникальный_анкор») (url:домен_донора* | url:домен_сайта*)]. Главным условием отбора анкоров были уникальность и отсутствие точной фразы на сайте-акцепторе, т.е. поиск по НПС для минимизации влияния текстовой составляющей сайта.
В результате наблюдались следующие закономерности:
1. «Взрослые» сайты не ищутся в семейном поиске Яндекса (family.yandex.ru), поэтому в результате поиска точной фразы на доноре и акцепторе в семейном поиске — находится только НПС акцептора. В поиске без ограничений — присутствуют обе ссылки:
Рис.2. Семейный поиск. Донор adult-сайт
Рис. 3. Поиск без ограничений. Донор adult-сайт
2. В противовес ссылкам с adult-доноров, ссылки с обычных сайтов отображаются как в стандартном поиске, так и в семейном:
Рис. 4. Семейный поиск. Донор не adult-сайт
Рис. 5. Поиск без ограничений. Донор не adult-сайт
3. В выдаче без ограничений, НПС с adult-донора ниже, чем с обычного донора. Можно предположить, что текстовая составляющая анкора на adult-сайте перебивает передающий вес ссылки с этого сайта. ВАЖНО, чтобы анкор был уникальным, иначе порядок может не соблюдаться. Подобный пример, но с донором, не принадлежащем категории adult, где НПС выше, чем текстовая составляющая анкора:
Рис. 6. Взаимное положение акцептора и adult-донора в выдаче.
Рис. 7. Взаимное положение акцептора и донора не «adult» в выдаче.
На практике, ссылки с подобных сайтов не покупаются, поэтому провести более глубокое исследование не получилось, однако, с вероятностью 99%, можно говорить, что вес с таких ссылок меньший, чем с обычных сайтов!
Сайты с adult-словами
Покупая ссылки на донорах и проверяя эти страницы с помощью стандартного плагина для Firefox —
Для этой цели был разработан инструмент, на вход которого подавался список url для проверки его наличия в выдачи «семейного поиска». Также данный инструмент позволял определить вероятность попадания всего сайта под гипотетический фильтр «ты взрослый». Вероятность рассчитывалась, как отношение разности количества страниц сайта, найденных в поиске без ограничения, и количества страниц, найденных в семейном поиске, к количеству страниц, найденных в поиске без ограничения:
где C unrestricted — количество страниц, найденное на сайте в поиске без ограничения;
C family — количество страниц, найденное на сайте в семейном поиске.
Корреляционный анализ проводился на отобранной базе ссылок, участвующих в непосредственном процессе продвижения, и собранных позиций соответствующих анкоров. К сожалению, назвать данный анализ «чистым» нельзя, т.к. все сайты оптимизированы по-разному, авторитетность сайтов — разная, количество ссылок на запросы также разное. Однако даже в этом случае присутствие фильтра, наложенного на весь сайт, должно было отразиться на позициях разбавленных анкоров.
Итоговые результаты представлены в таблице 2 и 3 ниже.
Таблица 2. Итоговая таблица корреляционного анализа по всем запросам
|
Позиция |
Всего ссылок |
Ссылок не в СП |
Доноров с P>70 |
Ср. НИ в СП |
Ср. P>70 |
Позиция |
1 | |||||
Всего ссылок |
0,069958 |
1 | ||||
Ссылок не в СП |
-0,01015 |
0,694497 |
1 | |||
Доноров с P>70 |
0,04777 |
0,874579 |
0,683873 |
1 | ||
Ср. НИ в СП |
-0,07208 |
-0,00167 |
0,448365 |
0,059198 |
1 | |
Ср. P>70 |
-0,0356 |
-0,01762 |
0,079897 |
0,283385 |
0,203838 |
1 |
Таблица 3. Итоговая таблица корреляционного анализа по всем сайтам по усредненным показателям
|
Позиция |
Всего ссылок |
Ссылок не в СП |
Доноров с P>70 |
Ср. НИ в СП |
Ср. P>70 |
Позиция |
1
| |||||
Всего ссылок |
-0,02037 |
1 | ||||
Ссылок не в СП |
-0,19268 |
0,680793 |
1 | |||
Доноров с P>70 |
-0,04807 |
0,901667 |
0,802514 |
1 | ||
Ср. НИ в СП |
-0,27283 |
-0,01794 |
0,446652 |
0,069347 |
1 | |
Ср. P>70 |
-0,05072 |
-0,06856 |
0,063691 |
0,141175 |
0,191851 |
1 |
Ссылок не в СП — это количество ссылок, которые не в индексе при поиске по семейному поиску.
Доноров с P>70 — это количество доноров, теоретическая вероятность которых больше порогового значения 70%. Выявлено на следующем этапе исследования.
Ср. НИ в СП — соответственно, среднее количество ссылок, которые не в индексе при поиске по семейному поиску, рассчитывается как отношение показателя «Ссылок не в СП» к общему количеству ссылок.
Ср. P>70 — соответственно, среднее количество доноров, теоретическая вероятность которых больше порогового значения 70%. Рассчитывается как отношение показателя «Доноров с P>70» к общему количеству ссылок.
Из таблиц видно, что корреляция очень слабая. Шкала корреляции представлена ниже:
Можно сделать вывод, что даже если существует фильтр «ты взрослый» — он накладывается не на сайт (корреляция позиции и Доноров с P>70 низкая). А наличие в индексе страницы в семейном поиске требует более глубокой проработки в виде экспериментов на чистых сайтах.
Статистика по биржам
На основе покупаемых ссылок проектов на разных биржах и проверки их по алгоритму, расписанному выше, был получен следующий результат:
Рис. 8. Результат проверки бирж по проставленным ссылкам.
Как видно из графика, в основном все купленные в рамках продвижения проектов ссылки имеют хорошие показатели, не превышающие в среднем 10%. Из графика ниже (увеличенный масштаб на интервале 50-100%) можно сделать вывод, что интервал 70-100%, т.к.
Рис. 9. Увеличенный масштаб графика проверки бирж на интервале 50-100%
В таблице 4 представлены проценты доноров, у которых 100% отсутствие страниц в индексе семейного поиска и у которых данный показатель лежит на интервале 70-100%.
Таблица 4. Вероятность теоретического adult-фильтра по биржам
Биржи |
Всего ссылок |
только 100% |
70-100% |
НИ |
sape |
11701 |
0,08307 |
0,086232 |
0,009572 |
blogun |
4263 |
0,277504 |
0,29369 |
0,004692 |
gogetlinks |
107 |
0,056075 |
0,065421 |
0 |
rotapost |
320 |
0,11875 |
0,140625 |
0,03125 |
miralinks |
1881 |
0,070707 |
0,077087 |
0,009038 |
sape pr |
2093 |
0,117057 |
0,127568 |
0,005733 |
ручные ссылки |
85 |
0,023529 |
0,023529 |
0,011765 |
всего sape |
45734 |
0,095815 |
0,099007 |
0,031158 |
Таким образом, самым чистым способом оказался старый метод ручной закупки, однако проверяемых доноров было не так много. Из бирж — sape, gogetlinks и miralinks оказались достаточно чистыми, а вот blogun и rotapost получили худшие оценки.
По оценке непосредственного присутствия страницы со ссылкой в поиске лидирует gogetlinks и sape pr. Про blogun.ru можно сказать, что данные не совсем корректные из-за отсутствия страницы в индексе без ограничений.
Выводы
- Вес с adult-сайтов передается по ссылке с меньшим весом, чем с обыкновенных сайтов.
- Пессимизация, накладываемая на ссылку с сайта, где присутствуют adult-слова, не подтвердилась.
- Для подтверждения или опровержения пессимизации, накладываемой на ссылку со страницы, на которой присутствует adult-слово, необходимо проводить чистые исследования на новых сайтах.
- Стандартные фильтры по закупке себя оправдывают и не превышают 10% мусора. Однако если предположить, что суммы, ежемесячно выкладываемые за аренду ссылок крупными рекламодателями, составляют только по sape около 500 000 руб., то 10% — это 50000 руб., что немало для оплаты мусора.
- Дополнительно необходимо провести эксперимент — снять ссылки, которые не в индексе семейного поиска и отследить изменение в позициях. Если изменений не будет, то экономия в 10% будет существенна для крупных рекламодателей! В рамках же малых денежных вливаний трудозатраты на анализ мусора будут выше, чем прибыли на его экономии.