Сегодня все больше и больше людей полагаются на обилие информации, доступной в Интернете, и, таким образом, увеличивающееся влияние Сети может принести значительные финансовые прибыли организациям. Часто поисковые системы являются дорогой в Сеть. Вот почему некоторые люди пытаются обмануть поисковые машины: чтобы их сайт был выше в результатах поиска и, таким образом, привлекал внимание пользователя.
Следовательно, как и в случае с электронной рассылкой, можно говорить о попытках заспамливания содержимого Интернета. В итоге, качество результатов поиска снижается.
Чтобы предоставлять качественные услуги, поисковым системам интернета важно обратить внимание на спам. В настоящее время поисковики борются со спамом часто с помощью множества ручных методов, но, насколько известно, они все еще нуждаются в совершенно эффективном ряде инструментов для борьбы с ним. Правильное понимание технологии спама может привести к разработке соответствующих контрмер против него (спама).
В данном мастер-классе мы систематизировали методы и технологии поискового спама, это поможет нам представить общую схему для борьбы с ним. В научной литературе уже были краткие дискуссии на тему спама. Любой желающий также сам может найти подробности некоторых особенных приемов в Сети. Тем не менее, мы считаем, что данный мастер-класс предлагает первую полную классификацию всех важных, когда-либо известных методов спама. Итак…
Поисковый спам направлен на действия, предназначенные для обмана поисковых машин, и придает некоторым страницам более высокое место, чем они заслуживают. В последнее время количество поискового спама резко возросло, что приводит к ухудшению результатов поиска. Данный мастер-класс являет собой полную классификацию существующей методики поискового спама, которая, как мы полагаем, может помочь в развитии соответствующих противодействий этого явления (спама).
Основная задача поисковых машин - обеспечивать качественные результаты выдачи с помощью правильного определения веб-страниц, которые соответствуют определенному запросу, и выдавать пользователю самые важные из этих релевантных страниц. Релевантность направлена на схожесть текста запроса и страницы сайта. Важность страницы заключается в общей (не зависящей от запроса) популярности страницы, которая зачастую основана на ссылочной структуре (например, страницы со множеством ссылок более важны) и других возможных показателях. Поисковые машины обычно сочетают релевантность и важность страницы, вычисляя объединенный порядок страниц, который используется, чтобы быть представленным пользователю на его запрос.
Термин «поисковый спам» ( «спамдексинг») используется для того, чтобы обозначить любые умышленные действия человека, которые вызывают не имеющие оправдания релевантность или важность некоторых веб-страниц, по отношению к действительно значимой странице. Люди, которые используют технологии спама, называются спамерами.
Любой человек может обнаружить в Интернете кучу других определений спама. Важную роль на сцене интернет-спама играют оптимизаторы сайтов под поисковые системы (поисковые оптимизаторы), такие как SEO Inc. или
Стоит заметить, что согласно нашему определению, все виды действий, способствующие росту популярности позиций, без какого-либо улучшения истинной ценности страницы является спамом.
Существует две категории методов, связанных со спамом.
Первая категория включает рекламные методы, например, с помощью которых можно достигнуть высокой релевантности и/или значимости некоторых страниц.
Вторую категорию составляют скрытые методы, способы, которые сами по себе не влияют на алгоритмы ранжирования поисковых систем, но используются, чтобы скрыть усвоенные рекламные методы от глаз простых пользователей. Два следующих раздела освещают каждую из этих двух категорий более подробно.
В этом разделе мы будем говорить о методах спама, которые оказывают влияние на алгоритмы ранжирования.
Оценивая текстовую релевантность, поисковые системы принимают во внимание, где на веб-странице находятся запросы. Каждое такое местоположение называется полем. Обычными текстовыми полями для страницы p являются тело документа, название страницы (тайтл), мета-теги в заголовке HTML и унифицированный указатель информационного ресурса (адрес страницы). Также считается, что указатели в тексте, связанные с URL’s, которые указывают на эту страницу и принадлежат этой странице, называются анкерами текстового поля, так как они часто достаточно хорошо описывают содержимое страницы. Выражения на странице в текстовом поле используются для определения релевантности страницы по отношению к определенному запросу (группе специальных слов); часто различный вес придается различным полям. Выражения, содержащие спам, относятся к приему, который определяет содержимое этих текстовых полей для того, чтобы сделать страницы, содержащие спам, релевантными для определенных запросов.
Методы спама выражений могут быть сгруппированы на основе текстовых полей, в которых присутствует спам.
*Cпам в теле документа. В этом случае, выражения, содержащие спам, включены в тело документа. Данный способ спама является самым простым и наиболее популярным, он такой же древний, как и сами поисковые системы.
Пример:
Apartment Rent Moscow Moscow Hotel Moscow Hotel Moscow Russia Moscow Flight Moscow Russia Flower To Moscow Moscow Travel Moscow Apartment Moscow ...Results for Apartment Rent Moscow
*Спам в названии документа (тайтла). Сегодняшние поисковые системы обычно придают высокий вес выражениям, используемым в названии документа. Следовательно, есть смысл включать выражения, содержащие спам, в название документа.
Пример:
*Спам в мета-тегах документа. Мета-теги HTML, которые появляются в заголовке документа, всегда были целью спамеров. Из-за большого количества спама в настоящее время поисковые машины придают меньшее значение этим тегам или полностью их игнорируют.
Вот простой пример спама ключевых слов в мета-тегах:
*Cпам анкеров текста. Так же, как и названию документа, поисковые системы придают высокий вес анкерам (указателям) выражений в тексте, так как предполагается, что они предлагают краткое содержание указанного документа. Поэтому выражения, содержащие спам, иногда включаются в текст анкера HTML c гиперссылкой на страницу. Данный метод спама отличается от предыдущих тем, что выражения, содержащие спам, добавляются не на саму «ключевую» страницу, а на другие страницы, ссылающиеся на главную. Так как текст в анкерах индексируется для обеих страниц, их спам имеет влияние на ранжирование как главной, так и другой страницы.
Простой пример спама анкеров текста:
*Спам адреса страницы. Некоторые поисковики разбивают адрес страницы на набор выражений, который используется для определения релевантности страницы. Оперируя этим, спамеры иногда создают длинные адреса страниц, которые включают в себя последовательности выражений, содержащих спам. Например, можно повстречать вот такой спам адреса страницы:
buy-canon-rebel-300d-lens-case.camerasx.com
buy-nikon-d100-d70-lens-case.camerasx.com
Часто методы спама сочетаются. Например, анкер текста и спам адреса страницы зачастую встречаются в ссылочном спаме.
Другой способ классифицирования методов спама основан на группе выражений в текстовых полях. Соответственно, мы имеем:
*Накачивание выражениями, содержащими спам дублирующего содержания.
Иногда спамеры дублируют «массивы текста» (например, новостные статьи), доступные в Интернете и вставляют в них выражения, содержащие спам, в случайном порядке. Данный способ эффективен, если тема текста оригинала столь редка, что есть только небольшое количество релевантных страниц, соответствующих ей. Накачивание также используется для разбавления, например, чтобы скрыть в тексте некоторые повторяющиеся выражения, содержащие спам, и обмануть алгоритмы поисковой системы, фильтрующие очевидные повторения.
*Повторение одного или нескольких определенных выражений. Таким способом спамеры достигают повышенной релевантности для документа по отношению к меньшему числу запросов.
*Демпинг большого количества несоответствующих выражений, часто даже целых словарных выражений. Так, спамеры делают определенную страницу релевантной для многих различных запросов. Демпинг эффективен по отношению к запросам, которые встречаются относительно редко, к не совсем точным запросам: для таких запросов, очевидно, что только пара страниц окажется релевантной, поэтому даже страница, наполненная спамом с низкой релевантностью, появится в десятке лучших результатов выдачи.
*Склеивание фраз также используется спамерами для быстрого создания контента. Идея заключается в склеивании предложений и фраз вместе, возможно, даже из разных источников; страница, накачанная спамом, может затем появиться под любой запрос любой темы первоначального предложения.
Кроме метрической релевантности, основанной на выражениях, поисковые системы также полагаются на ссылочную информацию, дабы определить важность веб-страницы. Вследствие этого, спамеры часто создают ссылочную структуру, которая, как они надеются, увеличит вес одной или нескольких их страниц.
Для спамера существует три вида интернет-страниц:
Имея данную модель в виду, мы обсудим два хорошо известных алгоритма, основанные на ссылочной информации, которые используются для оценки важности результатов.
HITS. Оригинальный алгоритм HITS был введен для ранжирования страниц определенной тематики. Однако обычно используют алгоритм для всех страниц Интернета, чтобы определить «ядро» и влияние результатов на каждую страницу. Согласно циркулярному определению HITS, основными весомыми страницами являются те страницы, которые указывают на многие другие авторитетные страницы, тогда как весомые авторитетные страницы – те страницы, на которые указывают основные страницы. Поисковая система, которая использует алгоритм HITS ранжирования страниц в качестве результата выдачи, показывает набор страниц с самыми весомыми страницами и большой авторитетностью.
Страницы, имеющие большой вес, могут быть легко заспамлены путем добавления исходящей ссылки в большое число страниц с хорошей репутацией, всемирно известных, таких как,
Достижение высокой авторитетности более сложная задача, так как это подразумевает наличие множества входящих ссылок с предположительно весомых страниц. Спамер может повысить вес своей страницы, (добавляя множество исходящих ссылок на них), и затем дать ссылку с этих страниц на свою главную страницу. Ссылки с весомых доступных страниц могут увеличить авторитетность главной страницы, тем самым, продвигая её. Поэтому, основное правило здесь «чем больше, тем лучше»: имея ограничения в бюджете, спамеру следует давать ссылку со всех своих доступных страниц на свою главную страницу. Неглавные собственные страницы должны также ссылаться на как можно больше других (известных) авторитетных страниц.
PageRank. Показатель авторитетности страницы (Page Rank) использует входящую ссылочную информацию, чтобы придать глобальный вес всем страницам в Сети. Он допускает, что количество входящих ссылок на страницу имеет отношение к популярности этой страницы среди обычных пользователей Сети (люди будут давать ссылки на страницы, которые они считают весомыми). Алгоритм подразумевает, что веб-страница является весомой, если несколько других весомых страниц ссылаются на нее. Соответственно, PageRank основан на взаимном укреплении страниц: вес определенной страницы оказывает воздействие на страницу, а этой странице оказывает влияние вес некоторых других страниц.
Недавний анализ алгоритма показал, что общий показатель авторитетности страницы (PageRank) состоит из r total-группы страниц (или, по крайней мере, одной страницы) и зависит от четырех факторов:
R total = r total + r in – r out – r sink,
где r static – вес, приобретенный из статического распределения (случайный скачок);
r in – вес, вытекающий из страниц через входящие ссылки с внешних страниц;
r out – вес, утекающий со страницы из-за исходящих ссылок на внешние страницы;
r sink - вес, потерянный из-за низких страниц в группе (например, страницы без исходящих ссылок).
Предыдущая формула приводит к оптимальной ссылочной структуре, которая увеличивает до предела вес главной страницы. Такая оптимальная структура имеет хорошие качества, делает все собственные страницы доступными с досягаемых страниц (поэтому они могут быть проиндексированы поисковой системой) и содержит минимальное количество ссылок. Для этой структуры используются следующие приемы, чтобы максимально увеличить общий показатель авторитетности страницы «фермы спама», и, в частности, страницы t:
В «ферме спама» ссылочная структура максимально увеличивает вес страницы t, если соблюдать следующие правила:
Исходящие ссылки
Спамер может вручную добавлять определенное количество исходящих ссылок на известные страницы, в надежде увеличить основной вес страницы. В то же время, самый широко известный метод создания большого количества исходящих ссылок – это каталог ссылок. Любой пользователь может найти в Интернете определенное количество сайтов-каталогов, некоторые более или менее известные (например, DMOZ Open Directory, dmoz.org, или Yahoo! Directory, dir.yahoo.com). Данные каталоги организуют веб-содержимое в тематические разделы и подразделы и выдают релевантные сайты для каждой темы. Спамеры часто очень просто дублируют некоторые или все страницы каталога, и, таким образом, быстро создают масштабную исходящую структуру ссылок.
Входящие ссылки
Чтобы накопить определенное количество входящих ссылок на главную единственную страницу или группу страниц, спамер может принять некоторые из этих методов:
Для спамеров скрывать указатели - обычное явление (например, повторяющиеся выражения, длинный список ссылок) на признаки своей деятельности. Они используют определенное количество методов, чтобы скрывать свое злоупотребление от обычных пользователей, посещающих страницы, которые содержащат спам, или от редакторов поисковых машин, которые пытаются определить примеры спама.
Выражения или ссылки, содержащие спам на странице, могут быть невидимыми, когда браузер просматривает страницу. Одним из известных методов является использование соответствующих цветовых схем: выражения в теле документа HTML не видны, если они показываются таким же цветом, что и фон страницы. Далее приведем простой пример:
hidden text
....
Подобным способом ссылочный спам может быть скрыт с помощью избегания анкеров текста. Вместо этого, спамеры часто создают малюсенький, 1x1 pixel рисунок анкера, который также не заметен для пользователя или того же цвета, что и фон. Пример:
Спамер может также использовать скрипты, чтобы скрыть некоторые визуальные элементы на странице, например, установив видимый атрибут стилей HTML на неправильный.
Если спамеры могут легко определять IP-адрес сетевого паука (робота), они могут усвоить следующий метод, который называется «маскировка» (клоакинг) . Клиент, в данном случае, - IP-адрес, с которого заходит "паук" (робот), он же (робот) индексирует страницы.
Веб-серверы, содержащие спам, возвращают специальный HTML-документ обычному веб-браузеру, тогда как пауку-роботу они возвращают совсем другой документ. Таким образом, спамеры могут предлагать умышленное содержимое пользователям (без каких-либо следов спама на странице) и, в то же время, посылать документ, содержащий спам, поисковой системе для индексации.
Идентификацию робота можно провести двумя способами. С одной стороны, некоторые спамеры сохраняют лист IP-адресов, используемых поисковыми системами, и определяют поисковых роботов, основываясь на сравнении их IP. С другой, веб-сервер может определить обращение, делающее запрос документу на основе поля user-agent в тексте запроса HTTP. Например, в следующем простом HTTP-сообщении о запросе именем user-agent является имя, используемое браузером Internet Explorer 6:
GET /db_pages/members.html HTTP/1.0
Host: www-db.stanford.edu
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1).
Имена user-agent строго не нормированы, и, собственно, вопросом запрашиваемого обращения является, что включить в соответствующее текстовое поле. Тем не менее, роботы поисковых систем обычно сами определяют себя по четкому названию, используемому обычными обращениями веб-браузера, чтобы предоставить вполне адекватную, правильную оптимизацию. Например, некоторые сайты служат для поисковых систем версиями их страниц, свободных от навигационных ссылок, рекламы и других визуальных элементов, имеющих отношение к презентации, а не к контенту. Такой вид деятельности приветствуется поисковыми системами, так как он помогает индексации полезной информации.
Другим способом скрывания содержимого спама на странице является автоматическая переадресация браузера на другой адрес, в то время, как страница загружается. В этом случае, страница все еще индексируется поисковой системой, но пользователь ее даже не видит: страницы с переадресацией работают в качестве посредника (прокси, входные страницы) для окончательной цели, которой спамеры стараются служить пользователю, находящему их сайт через поисковики.
Редирект может быть достигнут несколькими способами. Самый простой подход - воспользоваться мета-тегом refresh в заголовке HTML-документа. Устанавливая время обновления равное нулю и обновляя адрес страницы на главную, спамеры могут достигнуть переадресации в то время, как страница загружается браузером:
Так как предыдущий метод нетрудно осуществить, поисковые системы могут запросто определить такие попытки переадресации, используя синтаксический анализ мета-тегов. Более изощренные спамеры добиваются переадресации с помощью некоторых скриптов на странице, так как скрипты не исследуются роботами:
В данном мастер-классе был представлен ряд наиболее употребляемых методов сетевого спама. Классификация спама закономерно приводит к классификации контрмер. Соответственно, хочется подчеркнуть следующие подходы, которые могут взять на вооружение поисковые системы в борьбе со спамом:
С другой стороны, также можно обращаться к проблеме спама как к целому, несмотря на различия среди индивидуальных методов спама. Данный подход основывается на распознавании некоторых известных возможностей страниц, содержащих спам. Например, методы обнаружения спама используют приблизительное изолирование страниц известных, не содержащих спам: известные веб-страницы часто ссылаются на спам. Таким образом, адекватный анализ ссылочного алгоритма может быть использован, чтобы отделить известные страницы от любого вида спама, без принятия во внимание методов спама по отдельности.