30 Августа 2008 в 01:50

Семинар: «Как пользователи могут влиять на ранжирование»

0 1234

Семинар: «Как пользователи могут влиять на ранжирование»«Внимание: это не то, как работает Яндекс!». Именно с такого слайда начался доклад Игоря Кураленка «Анализ поведения пользователей для улучшения качества ранжирования». Докладчик сразу оговорился, что не будет рассказывать, как работает поисковая система. Сказано – сделано. На откровение никто не рассчитывал, но надежда узнать что-нибудь этакое теплилась до конца семинара. Но даже провоцирующие вопросы Константина Каширина типа «а не проговорились ли Вы, сказав …» и глубокие (в попытке докопаться до сути) от Евгения Трофименко не пробили броню корпоративной политики конфиденциальности.

seonews .ru/news/.search-engine/3425/">Семинар, состоявшийся в эту пятницу в столовой Яндекса, был посвящен околопоисковому исследованию компании, а именно влиянию пользователей на поиск (как отметил Игорь, этим занимаются многие западные компании). Собравшимся был продемонстрирован один из возможных способов применения данных о поведении пользователей и объяснена актуальность данного направления для Яндекса. На повестку дня были вынесены следующие пункты:

• Что такое пользовательское поведение.
• Модель поиска (прототип), которая используется для анализа данных.
• Немного о технике использования статистики.
• Ссылки на результаты.

Начало можно назвать вводным, собравшимся напомнили о том, какими бывают пользовательские данные: информация о посещаемости страниц, статистика поведения пользователей на страницах поисковой системы (например, сколько времени было проведено на странице), клики на выдаче и сессии запросов. Именно на два последних типа данных опирался Яндекс в исследовании.

Пользовательское поведение, по словам Игоря, рассматривается Яндексом в двух направлениях – персонализация (под конкретного пользователя подбирается дополнительная информация на его запрос, например, подсказки) и генерализация. Именно на нее было обращено особое внимание в ходе исследования. Примечательно, что эти данные могут быть использованы как фактор ранжирования, отмечая, на какие ресурсы пользователи кликают чаще. Однако в этом случае следует опасаться накрутки кликов. Генерализация может использоваться и «поверх» ранжирования, т.е. не всегда самый релевантный ответ может оказаться на первом месте.

Итак, какие данные о пользовательском поведении использовались в ходе исследования? Это клики и сессии запросов.

Самым распространенным источником данных о поведении пользователей продолжают оставаться клики. Они представляют огромную статистику, однако здесь много подводных камней таких как
- большая инертность запросов (например, информационных, которые могут быстро терять свою актуальность);
- зависимость от качества сниппета, которое может способствовать или не способствовать клику.
- зависимость от ранжирования: если показать два одинаковых магазина в разном порядке, кликабельность у них будет разной. Это определяется верой в систему, пользователь склонен кликать на более ранние результаты.
- смена темы поиска: на странице с результатами поиска пользователь может встретить очень привлекательный сниппет, уводящий от запроса, либо из-за очень информативного сниппета, в котором уже содержался ответ на запрос.
- и артефакты, к которым относятся клик-роботы, и различные флешмобовые акции, которые могут подходить под запрос пользователя, но не сообщать нужную ему информацию.

Сессии запросов
Данный источник информации о поведении пользователей также имеет свои плюсы и минусы, последних, по сравнению с кликами, меньше. Итак, сессии запросов - это большой объем данных, отличающихся своей достоверностью. Но пользователь может очень быстро менять свои интересы поиска, поэтому отсутствуют четкие границы сессий. Внутри одной сессии может произойти сужение или расширение темы, такая ситуация актуальна для информационных запросов, когда может произойти смещение или углубление в тему (возможные причины были описаны выше).

Идея исследования
Она заключается в том, что есть источник «вкусных» данных, которые хочется использовать. Ведь, как отмечает Игорь Кураленок, благодаря статистике поведения пользователей можно будет прогнозировать поведение новых пользователей. «Зная цепочки запросов других пользователей, можно дополнить выдачу наиболее вероятными ответами. Например, документы, на которые никто никогда не кликал, при достаточной частоте самого запроса можно исключить, а вместо них выдавать документы, которые по цепочке запросов можно назвать хорошими», - говорит Игорь.

Для большей наглядности докладчик предложил рассмотреть «страшный объект», который называется графом запросов, где узел – это запрос, ребро – количество пользователей, переформировавших один запрос в другой, поиск – это случайное блуждание по данному графу. При этом выдача формируется на основе наиболее вероятных точек остановки поиска. Т.е. рассматриваются все варианты поведения пользователя, для того чтобы найти точки, где предыдущие пользователи вероятней всего нашли ответы. Дальше последовали не менее «страшные» формулы расчетов.

Результатами исследования стали большая привлекательность (не релевантность, а вероятность клика) выдачи и большее разнообразие выдачи. Однако есть проблемы, которые не дают в полной мере заявить о гениальности идеи. Например, поиск становится менее понятным: в SERP могут появляться URLs, в сниппетах которых нет слов запроса. Только вникнув в суть эксперимента, можно понять, почему так происходит. Это существенно меняет поисковую практику

В заключение выступления Игорь делает следующие выводы: исследование поведения пользователя – это исследование среднего пользователя. Это хороший источник полезной информации, с которым нужно очень аккуратно работать. Где «хороший источник» означает полезный с точки зрения ранжирования, разнообразия результатов и т.д. Использование, полученных в ходе исследования, данных может привести Яндекс к совершенно другой модели поиска.

Рикардо Баеса-ЯтесПроводя такие просветительские семинары, Яндекс не ограничивается докладами своих сотрудников. Так, 15 августа в этой же самой столовой выступал со докладом «Mining Web Queries» известный ученый в области информационного поиска, вице-президент Yahoo! по исследованиям в Европе и Латинской Америке, автор Modern Information Retrieval доктор Рикардо Баеса-Ятес.

Рикардо рассказывал о целях проводимых его командой исследований поисковых запросов. Анализ и применение его результатов на практике должны, по замыслу Рикардо, решить проблему несовпадения поискового запроса и реального интереса пользователя, который он не может выразить в запросе из-за ограничений современного уровня развития поисковых систем.

Предложение Рикардо – учитывать при составлении выдачи возраст, пол, профессию, местожительства, поисковую историю и т.п.

Результатом исследования докладчик называл возможность кластериазации поисковых запросов, которая в свою очередь усовершенствует алгоритмы ранжирования сайтов, позволит ввести систему подсказок, предлагающих не просто расширение запроса, а именно реальные варианты запросов (которые можно будет составлять с учетом синонимии, веб-сленга и других лингвистических факторов).

Сама кластеризация запросов проводилась по сопоставлению похожих слов в запросах и похожих урлов, которые открывались по разным запросам. Соответственно, для улучшения ранжирования в дальнейшем предпочтение отдается тем страницам, на которые чаще кликали по этому зарпосу, а также вводится система рекомендации похожих популярных запросов (related searches).

Таким образом, Рикардо создает поиск, основанный не столько на запросе пользователя, сколько на его намерении (Intention Search) – и экспериментальной площадкой для всех исследований в этом направлении является Yahoo! Mindset Beta

Скриншот Yahoo!Mindset
Как видите, речь идет о том, что тестировщикам поисковой системы предоставляется возможность оценить ссылку из выдачи как коммерческую или информационную по определенной шкале.

Шкала оценки полезности ссылки в выдаче
Вот как выглядит полученная в ходе эксперимента выдача Yahoo!Mindset

Скриншот Yahoo!Mindset выдача
Рикардо несколько раз, предупреждая каверзные вопросы из зала, акцентировал внимание на том, что задача подобных исследований не слежка за человеком (т.е. анализируется не поведение пользователя), а определение его намерений, целей и попытка различными способами (как улучшением качества выдачи по запросу, так и рекомендацией схожих запросов) привести пользователя к этой цели.



Материал подготовили Анна Макарова и Анастасия Гутникова, SEOnews
0 комментариев
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:

Отправьте отзыв!