Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
Россия +7 (495) 139-20-33
10 Мая 2006 в 12:00

Классификация поискового спама

Россия +7 (495) 139-20-33
0 16378
Подпишитесь на нас в Telegram

1. Введение

Сегодня все больше и больше людей полагаются на обилие информации, доступной в Интернете, и, таким образом, увеличивающееся влияние Сети может принести значительные финансовые прибыли организациям. Часто поисковые системы являются дорогой в Сеть. Вот почему некоторые люди пытаются обмануть поисковые машины: чтобы их сайт был выше в результатах поиска и, таким образом, привлекал внимание пользователя.

Следовательно, как и в случае с электронной рассылкой, можно говорить о попытках заспамливания содержимого Интернета. В итоге, качество результатов поиска снижается.

Чтобы предоставлять качественные услуги, поисковым системам интернета важно обратить внимание на спам. В настоящее время поисковики борются со спамом часто с помощью множества ручных методов, но, насколько известно, они все еще нуждаются в совершенно эффективном ряде инструментов для борьбы с ним. Правильное понимание технологии спама может привести к разработке соответствующих контрмер против него (спама).

В данном мастер-классе мы систематизировали методы и технологии поискового спама, это поможет нам представить общую схему для борьбы с ним. В научной литературе уже были краткие дискуссии на тему спама. Любой желающий также сам может найти подробности некоторых особенных приемов в Сети. Тем не менее, мы считаем, что данный мастер-класс предлагает первую полную классификацию всех важных, когда-либо известных методов спама. Итак…

2. Понятие поискового спама

Поисковый спам направлен на действия, предназначенные для обмана поисковых машин, и придает некоторым страницам более высокое место, чем они заслуживают. В последнее время количество поискового спама резко возросло, что приводит к ухудшению результатов поиска. Данный мастер-класс являет собой полную классификацию существующей методики поискового спама, которая, как мы полагаем, может помочь в развитии соответствующих противодействий этого явления (спама).

Основная задача поисковых машин - обеспечивать качественные результаты выдачи с помощью правильного определения веб-страниц, которые соответствуют определенному запросу, и выдавать пользователю самые важные из этих релевантных страниц. Релевантность направлена на схожесть текста запроса и страницы сайта. Важность страницы заключается в общей (не зависящей от запроса) популярности страницы, которая зачастую основана на ссылочной структуре (например, страницы со множеством ссылок более важны) и других возможных показателях. Поисковые машины обычно сочетают релевантность и важность страницы, вычисляя объединенный порядок страниц, который используется, чтобы быть представленным пользователю на его запрос.

Термин «поисковый спам» ( «спамдексинг») используется для того, чтобы обозначить любые умышленные действия человека, которые вызывают не имеющие оправдания релевантность или важность некоторых веб-страниц, по отношению к действительно значимой странице. Люди, которые используют технологии спама, называются спамерами.

Любой человек может обнаружить в Интернете кучу других определений спама. Важную роль на сцене интернет-спама играют оптимизаторы сайтов под поисковые системы (поисковые оптимизаторы), такие как SEO Inc. или Брюс Клэй. Большинство оптимизаторов считают, что спам заключается только лишь в увеличении релевантности запросов, не относящихся к теме страницы. В то же время, многие оптимизаторы одобряют и практикуют методы, которые имеют влияние на значимость результатов, чтобы достигнуть «этичного», как они его называют, позиционирования веб-сайта или оптимизации.

Стоит заметить, что согласно нашему определению, все виды действий, способствующие росту популярности позиций, без какого-либо улучшения истинной ценности страницы является спамом.

Существует две категории методов, связанных со спамом.

Первая категория включает рекламные методы, например, с помощью которых можно достигнуть высокой релевантности и/или значимости некоторых страниц.

Вторую категорию составляют скрытые методы, способы, которые сами по себе не влияют на алгоритмы ранжирования поисковых систем, но используются, чтобы скрыть усвоенные рекламные методы от глаз простых пользователей. Два следующих раздела освещают каждую из этих двух категорий более подробно.

3. Методы, направленные на увеличение роста популярности страницы

3.1. Выражения, содержащие спам

В этом разделе мы будем говорить о методах спама, которые оказывают влияние на алгоритмы ранжирования.

Оценивая текстовую релевантность, поисковые системы принимают во внимание, где на веб-странице находятся запросы. Каждое такое местоположение называется полем. Обычными текстовыми полями для страницы p являются тело документа, название страницы (тайтл), мета-теги в заголовке HTML и унифицированный указатель информационного ресурса (адрес страницы). Также считается, что указатели в тексте, связанные с URL’s, которые указывают на эту страницу и принадлежат этой странице, называются анкерами текстового поля, так как они часто достаточно хорошо описывают содержимое страницы. Выражения на странице в текстовом поле используются для определения релевантности страницы по отношению к определенному запросу (группе специальных слов); часто различный вес придается различным полям. Выражения, содержащие спам, относятся к приему, который определяет содержимое этих текстовых полей для того, чтобы сделать страницы, содержащие спам, релевантными для определенных запросов.

3.2. Методы спама выражений

Методы спама выражений могут быть сгруппированы на основе текстовых полей, в которых присутствует спам.

3.2.1. Cпам в теле документа

*Cпам в теле документа. В этом случае, выражения, содержащие спам, включены в тело документа. Данный способ спама является самым простым и наиболее популярным, он такой же древний, как и сами поисковые системы.

Пример:

Apartment Rent Moscow Moscow Hotel Moscow Hotel Moscow Russia Moscow Flight Moscow Russia Flower To Moscow Moscow Travel Moscow Apartment Moscow ...

Results for Apartment Rent Moscow

3.2.2. Спам в названии документа (title)

*Спам в названии документа (тайтла). Сегодняшние поисковые системы обычно придают высокий вес выражениям, используемым в названии документа. Следовательно, есть смысл включать выражения, содержащие спам, в название документа.

Пример:

<b>Пластиковые окна</b>, <b>пластиковые окна</b> пвх, <b>пластиковые окна</b> Internova, <b>пластиковые окна</b> KBE, <b>пластиковые окна</b> Tryba, <b>пластиковые окна</b> Rehau, <b>пластиковые окна</b> Veka

3.2.3. Спам в мета-тегах документа

*Спам в мета-тегах документа. Мета-теги HTML, которые появляются в заголовке документа, всегда были целью спамеров. Из-за большого количества спама в настоящее время поисковые машины придают меньшее значение этим тегам или полностью их игнорируют.

Вот простой пример спама ключевых слов в мета-тегах:

3.2.4. Cпам анкеров текста

*Cпам анкеров текста. Так же, как и названию документа, поисковые системы придают высокий вес анкерам (указателям) выражений в тексте, так как предполагается, что они предлагают краткое содержание указанного документа. Поэтому выражения, содержащие спам, иногда включаются в текст анкера HTML c гиперссылкой на страницу. Данный метод спама отличается от предыдущих тем, что выражения, содержащие спам, добавляются не на саму «ключевую» страницу, а на другие страницы, ссылающиеся на главную. Так как текст в анкерах индексируется для обеих страниц, их спам имеет влияние на ранжирование как главной, так и другой страницы.

Простой пример спама анкеров текста:

бесплатно, большие скидки, дешево, недорого, дешево, бесплатно

3.2.5. Спам адреса страницы

*Спам адреса страницы. Некоторые поисковики разбивают адрес страницы на набор выражений, который используется для определения релевантности страницы. Оперируя этим, спамеры иногда создают длинные адреса страниц, которые включают в себя последовательности выражений, содержащих спам. Например, можно повстречать вот такой спам адреса страницы:

buy-canon-rebel-300d-lens-case.camerasx.com
buy-nikon-d100-d70-lens-case.camerasx.com

Часто методы спама сочетаются. Например, анкер текста и спам адреса страницы зачастую встречаются в ссылочном спаме.

Другой способ классифицирования методов спама основан на группе выражений в текстовых полях. Соответственно, мы имеем:

*Накачивание выражениями, содержащими спам дублирующего содержания.

Иногда спамеры дублируют «массивы текста» (например, новостные статьи), доступные в Интернете и вставляют в них выражения, содержащие спам, в случайном порядке. Данный способ эффективен, если тема текста оригинала столь редка, что есть только небольшое количество релевантных страниц, соответствующих ей. Накачивание также используется для разбавления, например, чтобы скрыть в тексте некоторые повторяющиеся выражения, содержащие спам, и обмануть алгоритмы поисковой системы, фильтрующие очевидные повторения.

*Повторение одного или нескольких определенных выражений. Таким способом спамеры достигают повышенной релевантности для документа по отношению к меньшему числу запросов.

*Демпинг большого количества несоответствующих выражений, часто даже целых словарных выражений. Так, спамеры делают определенную страницу релевантной для многих различных запросов. Демпинг эффективен по отношению к запросам, которые встречаются относительно редко, к не совсем точным запросам: для таких запросов, очевидно, что только пара страниц окажется релевантной, поэтому даже страница, наполненная спамом с низкой релевантностью, появится в десятке лучших результатов выдачи.

*Склеивание фраз также используется спамерами для быстрого создания контента. Идея заключается в склеивании предложений и фраз вместе, возможно, даже из разных источников; страница, накачанная спамом, может затем появиться под любой запрос любой темы первоначального предложения.

Кроме метрической релевантности, основанной на выражениях, поисковые системы также полагаются на ссылочную информацию, дабы определить важность веб-страницы. Вследствие этого, спамеры часто создают ссылочную структуру, которая, как они надеются, увеличит вес одной или нескольких их страниц.

4. Ссылочный спам

4.1. Алгоритмы, направленные на ссылочный спам

Для спамера существует три вида интернет-страниц:

  1. Недоступные страницы – это те страницы, которые спамер не может изменить. Эти страницы находятся за гранью досягаемости; спамер не может повлиять на исходящие ссылки.
  2. Доступные страницы поддерживаются другими людьми (предположительно, не имеющими отношения к спамерам), но могут быть с некоторыми ограничениями изменены спамером. Например, спамер может добавить сообщение в гостевую книгу, и это сообщение может иметь ссылку на сайт, содержащий спам. Так как фильтрование доступных страниц обычно не является прямым, позволим себе сказать, что спамер имеет ограниченный запас доступных страниц.
  3. Собственные страницы поддерживаются спамером, который, таким образом, имеет полный контроль над их содержимым. Такие страницы называются «фермами спама». Цель спамера – повысить вес одной или многих своих страниц. Для простоты, скажем, что существует одна определенная страница t. Также, существуют определенные расходы по техническому обслуживанию (регистрация домена, веб-хостинг), связанные с собственными страницами спамера, поэтому можно утверждать, что спамер имеет ограниченный запас таких страниц, за исключением главной страницы.

Имея данную модель в виду, мы обсудим два хорошо известных алгоритма, основанные на ссылочной информации, которые используются для оценки важности результатов.

HITS. Оригинальный алгоритм HITS был введен для ранжирования страниц определенной тематики. Однако обычно используют алгоритм для всех страниц Интернета, чтобы определить «ядро» и влияние результатов на каждую страницу. Согласно циркулярному определению HITS, основными весомыми страницами являются те страницы, которые указывают на многие другие авторитетные страницы, тогда как весомые авторитетные страницы – те страницы, на которые указывают основные страницы. Поисковая система, которая использует алгоритм HITS ранжирования страниц в качестве результата выдачи, показывает набор страниц с самыми весомыми страницами и большой авторитетностью.

Страницы, имеющие большой вес, могут быть легко заспамлены путем добавления исходящей ссылки в большое число страниц с хорошей репутацией, всемирно известных, таких как, www.cnn.com или www.mit.edu. Таким образом, спамеру следует добавлять много исходящих ссылок на весомую страницу t для увеличения ее веса.

Достижение высокой авторитетности более сложная задача, так как это подразумевает наличие множества входящих ссылок с предположительно весомых страниц. Спамер может повысить вес своей страницы, (добавляя множество исходящих ссылок на них), и затем дать ссылку с этих страниц на свою главную страницу. Ссылки с весомых доступных страниц могут увеличить авторитетность главной страницы, тем самым, продвигая её. Поэтому, основное правило здесь «чем больше, тем лучше»: имея ограничения в бюджете, спамеру следует давать ссылку со всех своих доступных страниц на свою главную страницу. Неглавные собственные страницы должны также ссылаться на как можно больше других (известных) авторитетных страниц.

PageRank. Показатель авторитетности страницы (Page Rank) использует входящую ссылочную информацию, чтобы придать глобальный вес всем страницам в Сети. Он допускает, что количество входящих ссылок на страницу имеет отношение к популярности этой страницы среди обычных пользователей Сети (люди будут давать ссылки на страницы, которые они считают весомыми). Алгоритм подразумевает, что веб-страница является весомой, если несколько других весомых страниц ссылаются на нее. Соответственно, PageRank основан на взаимном укреплении страниц: вес определенной страницы оказывает воздействие на страницу, а этой странице оказывает влияние вес некоторых других страниц.

Недавний анализ алгоритма показал, что общий показатель авторитетности страницы (PageRank) состоит из r total-группы страниц (или, по крайней мере, одной страницы) и зависит от четырех факторов:

R total = r total + r in – r out – r sink,

где r static – вес, приобретенный из статического распределения (случайный скачок);

r in – вес, вытекающий из страниц через входящие ссылки с внешних страниц;

r out – вес, утекающий со страницы из-за исходящих ссылок на внешние страницы;

r sink - вес, потерянный из-за низких страниц в группе (например, страницы без исходящих ссылок).

Предыдущая формула приводит к оптимальной ссылочной структуре, которая увеличивает до предела вес главной страницы. Такая оптимальная структура имеет хорошие качества, делает все собственные страницы доступными с досягаемых страниц (поэтому они могут быть проиндексированы поисковой системой) и содержит минимальное количество ссылок. Для этой структуры используются следующие приемы, чтобы максимально увеличить общий показатель авторитетности страницы «фермы спама», и, в частности, страницы t:

  1. Использование всех собственных страниц в «ферме спама». Таким образом, происходит максимальное увеличение статического веса r static.
  2. Накопление максимального количества входящих ссылок из доступных страниц в «ферме спама». Таким образом, происходит максимальное увеличение входящего веса r in.
  3. Сдерживание ссылок, ссылающихся не на «фермы спама». Таким образом, устанавливается r out, близкое к нулю.
  4. Избежание «пониженных» страниц в «ферме спама» гарантирует, что каждая страница (включая t) будет иметь несколько исходящих ссылок. Таким образом, r sink равен нулю.

В «ферме спама» ссылочная структура максимально увеличивает вес страницы t, если соблюдать следующие правила:

  1. Сделать все доступные и собственные страницы ссылающимися непосредственно на главную страницу, таким образом, максимально увеличивая входящий вес.
  2. Добавлять ссылки с t на другие собственные страницы. Без таких ссылок t могла бы потерять значительную часть веса, если бы она являлась «пониженной» страницей, а собственные страницы были бы недоступными извне «фермы спама». Получившийся замкнутый круг помогает весу, утекающему с t, перетечь обратно. Стоит заметить, что неразумно будет создавать похожие круги между t и доступными страницами, так как это уменьшит общий вес «фермы спама».

4.2. Методы ссылочного спама

Исходящие ссылки

Спамер может вручную добавлять определенное количество исходящих ссылок на известные страницы, в надежде увеличить основной вес страницы. В то же время, самый широко известный метод создания большого количества исходящих ссылок – это каталог ссылок. Любой пользователь может найти в Интернете определенное количество сайтов-каталогов, некоторые более или менее известные (например, DMOZ Open Directory, dmoz.org, или Yahoo! Directory, dir.yahoo.com). Данные каталоги организуют веб-содержимое в тематические разделы и подразделы и выдают релевантные сайты для каждой темы. Спамеры часто очень просто дублируют некоторые или все страницы каталога, и, таким образом, быстро создают масштабную исходящую структуру ссылок.

Входящие ссылки

Чтобы накопить определенное количество входящих ссылок на главную единственную страницу или группу страниц, спамер может принять некоторые из этих методов:

  • создать «медовый горшочек», т.е. группу страниц, которая обеспечивает полезной информацией (например, копии страниц документации по UNIX), но также имеет (скрытые) ссылки на главные страницы, наполненные спамом. «Медовый горшочек» затем призывает людей ссылаться на него, тем самым, повышается ранжирование главной страницы. Вышеупомянутое дублирование каталогов может служить «медовым горшочком»;
  • фильтровать каталог ссылок. Некоторые веб-директории позволяют мастерам разместить ссылки на их сайты в конкретный раздел каталога. Случается, что редакторы таких каталогов не проверяют и строго не контролируют добавление ссылок или могут быть обманутыми опытным спамером. В данных случаях, спамеры могут добавить в каталог ссылки на страницы, которые ведут на их главную страницу. Так как каталоги ссылок проявляют тенденцию иметь высокий PageRank и вес страницы, такой метод спама является полезным для повышения как PageRank, так и авторитетности главных страниц;
  • размещать ссылки на немодерируемых досках объявлений и гостевых книгах. Как упоминалось ранее, спамеры могут добавлять адреса страниц в, казалось бы, невинные сообщения, которые они посылают. Без модератора, который наблюдает за принятыми сообщениями, страницы досок объявлений и гостевых книг, в конце концов, приравниваются к спаму;
  • участвовать в обмене ссылками. Очень часто группа спамеров организует структуру обмена ссылками, чтобы их сайты ссылались друг на друга;
  • создавать собственную «ферму спама». В наши дни спамеры могут контролировать большое число сайтов и создавать произвольную ссылочную структуру, которая будет повышать ранжирование некоторых главных страниц. Этот метод был чрезмерно дорогим несколько лет назад, сегодня затраты на него резко упали, так же, как и на регистрацию домена или веб-хостинг.

Для спамеров скрывать указатели - обычное явление (например, повторяющиеся выражения, длинный список ссылок) на признаки своей деятельности. Они используют определенное количество методов, чтобы скрывать свое злоупотребление от обычных пользователей, посещающих страницы, которые содержащат спам, или от редакторов поисковых машин, которые пытаются определить примеры спама.

5. Скрытые методы

5.1. Скрывание контента

Выражения или ссылки, содержащие спам на странице, могут быть невидимыми, когда браузер просматривает страницу. Одним из известных методов является использование соответствующих цветовых схем: выражения в теле документа HTML не видны, если они показываются таким же цветом, что и фон страницы. Далее приведем простой пример:

hidden text

....

Подобным способом ссылочный спам может быть скрыт с помощью избегания анкеров текста. Вместо этого, спамеры часто создают малюсенький, 1x1 pixel рисунок анкера, который также не заметен для пользователя или того же цвета, что и фон. Пример:

Спамер может также использовать скрипты, чтобы скрыть некоторые визуальные элементы на странице, например, установив видимый атрибут стилей HTML на неправильный.

5.2. Маскировка (клоакинг)

Если спамеры могут легко определять IP-адрес сетевого паука (робота), они могут усвоить следующий метод, который называется «маскировка» (клоакинг) . Клиент, в данном случае, - IP-адрес, с которого заходит "паук" (робот), он же (робот) индексирует страницы.

Веб-серверы, содержащие спам, возвращают специальный HTML-документ обычному веб-браузеру, тогда как пауку-роботу они возвращают совсем другой документ. Таким образом, спамеры могут предлагать умышленное содержимое пользователям (без каких-либо следов спама на странице) и, в то же время, посылать документ, содержащий спам, поисковой системе для индексации.

Идентификацию робота можно провести двумя способами. С одной стороны, некоторые спамеры сохраняют лист IP-адресов, используемых поисковыми системами, и определяют поисковых роботов, основываясь на сравнении их IP. С другой, веб-сервер может определить обращение, делающее запрос документу на основе поля user-agent в тексте запроса HTTP. Например, в следующем простом HTTP-сообщении о запросе именем user-agent является имя, используемое браузером Internet Explorer 6:

GET /db_pages/members.html HTTP/1.0

Host: www-db.stanford.edu

User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1).

Имена user-agent строго не нормированы, и, собственно, вопросом запрашиваемого обращения является, что включить в соответствующее текстовое поле. Тем не менее, роботы поисковых систем обычно сами определяют себя по четкому названию, используемому обычными обращениями веб-браузера, чтобы предоставить вполне адекватную, правильную оптимизацию. Например, некоторые сайты служат для поисковых систем версиями их страниц, свободных от навигационных ссылок, рекламы и других визуальных элементов, имеющих отношение к презентации, а не к контенту. Такой вид деятельности приветствуется поисковыми системами, так как он помогает индексации полезной информации.

5.3. Переадресация (редирект)

Другим способом скрывания содержимого спама на странице является автоматическая переадресация браузера на другой адрес, в то время, как страница загружается. В этом случае, страница все еще индексируется поисковой системой, но пользователь ее даже не видит: страницы с переадресацией работают в качестве посредника (прокси, входные страницы) для окончательной цели, которой спамеры стараются служить пользователю, находящему их сайт через поисковики.

Редирект может быть достигнут несколькими способами. Самый простой подход - воспользоваться мета-тегом refresh в заголовке HTML-документа. Устанавливая время обновления равное нулю и обновляя адрес страницы на главную, спамеры могут достигнуть переадресации в то время, как страница загружается браузером:

Так как предыдущий метод нетрудно осуществить, поисковые системы могут запросто определить такие попытки переадресации, используя синтаксический анализ мета-тегов. Более изощренные спамеры добиваются переадресации с помощью некоторых скриптов на странице, так как скрипты не исследуются роботами:

6. Заключение

В данном мастер-классе был представлен ряд наиболее употребляемых методов сетевого спама. Классификация спама закономерно приводит к классификации контрмер. Соответственно, хочется подчеркнуть следующие подходы, которые могут взять на вооружение поисковые системы в борьбе со спамом:

  1. Определить примеры спама, например, найти страницы, которые содержат конкретные виды спама и остановить обход и/или индексацию таких страниц. Поисковые системы обычно используют группу автоматических или полуавтоматических собственных алгоритмов определения спама и экспертные знания редакторов, чтобы точно определить и убрать страницы, содержащие спам, из индекса.
  2. Предотвратить спам, как то: сделать определенные методы спама невозможными к использованию. Например, робот поисковой системы может сам определять себя в качестве обращения веб-браузера, чтобы избежать маскировки.
  3. Уравновешивать эффект спама. Сегодня поисковые системы используют отклонения от основных методов ранжирования, которые имеют некоторую степень устойчивости к спаму.

С другой стороны, также можно обращаться к проблеме спама как к целому, несмотря на различия среди индивидуальных методов спама. Данный подход основывается на распознавании некоторых известных возможностей страниц, содержащих спам. Например, методы обнаружения спама используют приблизительное изолирование страниц известных, не содержащих спам: известные веб-страницы часто ссылаются на спам. Таким образом, адекватный анализ ссылочного алгоритма может быть использован, чтобы отделить известные страницы от любого вида спама, без принятия во внимание методов спама по отдельности.

0 комментариев
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.

Отправьте отзыв!