Термин «пользовательский контент» покрывает довольно широкий спектр различных текстов, картинок, видео и звукозаписей, которые вы можете встретить в сети.
В принципе, от остального контента пользовательский контент отличается тем, что его создают сами пользователи сайтов. К пользовательскому контенту можно отнести доски объявлений, форумы, сайты на движке wiki, обзоры продуктов, дискуссионные листы, сайты вопросов и ответов, блоги и комментарии к блогам, подкасты и многое другое.
Недавно опубликованный патент Yahoo рассматривает возможные подходы к индексации пользовательского контента и включения его в поисковую выдачу.
Изобретатели указывают на то, что в местах вроде страниц отзывов о товарах иногда встречается крайне полезная информация, но поисковые машины далеко не всегда показывают ее ищущим людям.
Почему у поисковых машин могут возникать трудности с ранжированием информации, обнаруженной в пользовательском контенте? Вот три причины, о которых нам говорят, что они влияют на «типичные механизмы ранжирования документов в поиске, но не подходят для ранжирования пользовательского контента»:
- Пользовательский контент обычно небольшой по объему,
- На и с пользовательского контента обычно нет ссылок,
- В пользовательском контенте распространены орфографические ошибки.
В патенте приводятся три концепции, которые могут быть полезны при ранжировании пользовательского контента, чтобы он попадал в выдачу, если может быть полезен. Эти концепции:
- Качество документа (Document goodness),
- Рейтинг автора (Author rank),
- Рейтинг месторасположения (Location rank).
Детальнее к ним мы еще вернемся, а пока обратимся к самому патенту.
Методика и инструментарий для ранжирования пользовательского контента в поисковых результатах
Изобретатели: Jaya Kawale, Aditya Pal
Принадлежит Yahoo
US Patent Application 20090271391
Опубликовано 29 октября 2009
Подано на рассмотрение 29 апреля 2008
Аннотация
Методика и инструментарий позволяют ранжировать пользовательский контент для поисковых результатов. В методику и инструментарий входит распознавание данных пользовательского контента, собранного с веб-документа расположенного в сети.
Методика и инструментарий вычисляют: значение параметра качества документа для веб-документа; рейтинг автора для поля автора пользовательского контента; и рейтинг месторасположения для ресурса в сети. Методика и инструментарий затем генерируют значение рейтинга для поля пользовательского контента на основе значения параметра качества документа, рейтинга автора и рейтинга месторасположения.
Методика и инструментарий также выдают поисковый результат, включающий поле данных пользовательского контента, размещенное на позиции в поисковой выдаче на основе значения рейтинга.
Первый шаг к ранжированию пользовательского контента это создание оценки качества документа для отзыва, поста в блоге, сообщения на форуме или другого пользовательского контента.
Вот некоторые вещи, на которые может обращать внимание поисковая машина при определении качества документа:
- Рейтинг пользователя (если доступно);
- Частота сообщений до и после размещения документа;
- Контекстуальная связь документа с родительским документом;
- Корень треда;
- Количество просмотров/кликов документа (если доступно);
- Дополнения в документе вроде изображений, ссылок, видео и встроенных объектов;
- Длина документа;
- Длина треда к которому принадлежит документ;
- Качество дочерних документов (если есть).
Следующий шаг к ранжированию пользовательского контента — создание рейтинга автора для создателя контента. Рейтинг автора это «оценка компетентности автора в данной области».
Вещи, которые могут учитываться при создании рейтинга автора:
- Количество релевантных/нерелевантных сообщений автора;
- Показатель качества документов всех документов автора;
- Общее число документов автора за определенный временной период;
- Общее число ответов или комментариев автора;
- Количество групп, в которых состоит автор.
Первые два шага рассматривали сам пользовательский контент и его создателя. Третий шаг направлен на анализ месторасположения пользовательского контента и предоставляет рейтинг месторасположения.
Вещи, которые поисковая машина может учитывать при ранжировании пользовательского контента с привлечением рейтинга месторасположения этого контента:
- Уровень активности на ресурсе, например, количество документов, публикуемое в час;
- Количество уникальных пользователей на ресурсе;
- Среднее значение качества документов для документов на ресурсе;
- Средний рейтинг авторов для пользователей на ресурсе;
- Внешний рейтинг ресурса.
В патенте приводится несколько методов совместного использования этих метрик для позиционирования пользовательского контента в поисковой выдаче. Возможно, подобные параметры играют роль в попадании пользовательского контента в выдачу и других поисковиков.
Переводной материал, источник