Пользовательский контент и его ранжирование поисковыми машинами

Термин «пользовательский контент» покрывает довольно широкий спектр различных текстов, картинок, видео и звукозаписей, которые вы можете встретить в сети.

В принципе, от остального контента пользовательский контент отличается тем, что его создают сами пользователи сайтов. К пользовательскому контенту можно отнести доски объявлений, форумы, сайты на движке wiki, обзоры продуктов, дискуссионные листы, сайты вопросов и ответов, блоги и комментарии к блогам, подкасты и многое другое.

Недавно опубликованный патент Yahoo рассматривает возможные подходы к индексации пользовательского контента и включения его в поисковую выдачу.

Изобретатели указывают на то, что в местах вроде страниц отзывов о товарах иногда встречается крайне полезная информация, но поисковые машины далеко не всегда показывают ее ищущим людям.

Почему у поисковых машин могут возникать трудности с ранжированием информации, обнаруженной в пользовательском контенте? Вот три причины, о которых нам говорят, что они влияют на «типичные механизмы ранжирования документов в поиске, но не подходят для ранжирования пользовательского контента»:

  • Пользовательский контент обычно небольшой по объему,
  • На и с пользовательского контента обычно нет ссылок,
  • В пользовательском контенте распространены орфографические ошибки.

В патенте приводятся три концепции, которые могут быть полезны при ранжировании пользовательского контента, чтобы он попадал в выдачу, если может быть полезен. Эти концепции:

  • Качество документа (Document goodness),
  • Рейтинг автора (Author rank),
  • Рейтинг месторасположения (Location rank).

Детальнее к ним мы еще вернемся, а пока обратимся к самому патенту.

Методика и инструментарий для ранжирования пользовательского контента в поисковых результатах

Изобретатели: Jaya Kawale, Aditya Pal
Принадлежит Yahoo
US Patent Application 20090271391
Опубликовано 29 октября 2009
Подано на рассмотрение 29 апреля 2008

Аннотация

Методика и инструментарий позволяют ранжировать пользовательский контент для поисковых результатов. В методику и инструментарий входит распознавание данных пользовательского контента, собранного с веб-документа расположенного в сети.

Методика и инструментарий вычисляют: значение параметра качества документа для веб-документа; рейтинг автора для поля автора пользовательского контента; и рейтинг месторасположения для ресурса в сети. Методика и инструментарий затем генерируют значение рейтинга для поля пользовательского контента на основе значения параметра качества документа, рейтинга автора и рейтинга месторасположения.

Методика и инструментарий также выдают поисковый результат, включающий поле данных пользовательского контента, размещенное на позиции в поисковой выдаче на основе значения рейтинга.

Первый шаг к ранжированию пользовательского контента это создание оценки качества документа для отзыва, поста в блоге, сообщения на форуме или другого пользовательского контента.

Вот некоторые вещи, на которые может обращать внимание поисковая машина при определении качества документа:

  • Рейтинг пользователя (если доступно);
  • Частота сообщений до и после размещения документа;
  • Контекстуальная связь документа с родительским документом;
  • Корень треда;
  • Количество просмотров/кликов документа (если доступно);
  • Дополнения в документе вроде изображений, ссылок, видео и встроенных объектов;
  • Длина документа;
  • Длина треда к которому принадлежит документ;
  • Качество дочерних документов (если есть).

Следующий шаг к ранжированию пользовательского контента — создание рейтинга автора для создателя контента. Рейтинг автора это «оценка компетентности автора в данной области».

Вещи, которые могут учитываться при создании рейтинга автора:

  • Количество релевантных/нерелевантных сообщений автора;
  • Показатель качества документов всех документов автора;
  • Общее число документов автора за определенный временной период;
  • Общее число ответов или комментариев автора;
  • Количество групп, в которых состоит автор.

Первые два шага рассматривали сам пользовательский контент и его создателя. Третий шаг направлен на анализ месторасположения пользовательского контента и предоставляет рейтинг месторасположения.

Вещи, которые поисковая машина может учитывать при ранжировании пользовательского контента с привлечением рейтинга месторасположения этого контента:

  • Уровень активности на ресурсе, например, количество документов, публикуемое в час;
  • Количество уникальных пользователей на ресурсе;
  • Среднее значение качества документов для документов на ресурсе;
  • Средний рейтинг авторов для пользователей на ресурсе;
  • Внешний рейтинг ресурса.

В патенте приводится несколько методов совместного использования этих метрик для позиционирования пользовательского контента в поисковой выдаче. Возможно, подобные параметры играют роль в попадании пользовательского контента в выдачу и других поисковиков.


Переводной материал, источник


(Голосов: 5, Рейтинг: 5)