26 Марта 2007 в 01:32

Google определяет спам-документы по фразам

0 1701

Логотип Google

Google опубликовал новый патент «Определение спам-документов, основанное на фразах». В соответствии с патентом, спам-документы определяются на основании количества соответствующих фраз, встречающихся в документе.

Процесс определения спам-документов строится следующим образом, на основе списка фраз, где каждая фраза содержит ассоциативные связи с набором соотнесенных с ней фразами, определяется количество соотнесенных фраз в документе. Далее путем сравнения фактического количества соотнесенных фраз, содержащихся в документе, с ожидаемым количеством соотнесенных фраз выявляется спам-документ.

На основе частоты использования фраз в коллекции документов выделяются «действующие» или «хорошие» фразы. Подобным образом могут быть идентифицированы фразы, состоящие из нескольких слов – к примеру, фразы из четырех, пяти, и более слов.

Напомним, некоторое время назад Google опубликовал патент «Ranking blog documents», который даёт ответ на вопрос, в зависимости от чего ранжируются блоги в результатах поиска.

0 комментариев
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:

Отправьте отзыв!
X | Закрыть