Если бы вы могли заглянуть в логи запросов к Google во время выхода последних пяти фильмов с участием Джима Керри, то наверняка бы увидели пик поиска по запросу «Джим Керри». То же самое с Беном Стиллером, Эдвардом Нортоном, Леонардо ДиКаприо и Томом Хэнксом. Это стало известно из недавно опубликованной статьи исследователей из Google.
Авторы исследования «Гаспаччо и летняя экзема: лексические взаимоотношения из временных паттернов запросов веб-поиска» проверили, есть ли какие-то временные взаимоотношения между поиском названий фильмов и имен актеров.
Кажется очевидным, что так и должно быть, но все же данные, полученные Google, интересны.
Взаимоотношения между запросами на основе времени
Исследователи из Цюрихского офиса Google проанализировали и другие взаимоотношения на основе времени запроса и нашли несколько типов таких взаимоотношений.
Например «gazpacho» и «summertime» появляются в логах запросов к Google примерно в одно и то же время. Так же вместе эти запросы набирают и теряют популярность. Оба они относятся к теплой погоде.
Может ли Google использовать подобную информацию для создания поисковых предположений? Это один из вопросов, поднимаемых в статье.
Семантические взаимоотношения между близкими по времени поиска терминами
Для этого исследования были взяты фразы из Принстонской Wordnet 3.0. В результате работы было выделено несколько типов взаимоотношений. Расскажем кратко о каждом.
Настоящие синонимы — слова, которые обозначают одно и то же, как «november» и «nov», или «car» и «automobile».
Вариации имен людей — в случае, когда человек известен только именем, только фамилией или званием, как «john lennon» и «lennon», «Barack Obama» и «President Obama».
Термины, связанные географически — географически близкие друг к другу объекты, как «Manhattan», «Brooklyn», «Bronx» (районы Нью-Йорка).
Синонимы названий местности — как «New Jersey» и «Jersey» (варианты названия одного города).
Деривативы — как «New York» и «New Yorker».
Уточнение общеупотребительного слова — когда сокращенная версия слова или фразы обычно значит то же, что и более длинная версия, как «Spanish inquisition» и «inquisition» (обычно под инквизицией понимается именно Испанская инквизиция).
Измененный порядок слов — когда связанные фразы используют одинаковые слова, как «oil palm» и «palm oil».
Морфологические варианты — когда фразы могут немного различаться, но при этом быть тесно связанными, как «station of the cross» и «stations of the cross» (различие лишь в числе — единственное и множественное).
Акронимы — как «National Aeronautics and Space Administration Agency» и «NASA».
Гипероним-гипоним — пары слов, которые имеют взаимоотношения. Например, «розовый» или «алый» относится к «красный».
Родственные термины в таксономии — термины, находящиеся в классификации на одном уровне, как в случае с цитрусовыми будут «апельсин», «грейпфрут», «лимон» и «лайм».
События, происходящие вместе — типичным примером является выход фильма на экраны, плюс могут быть запрошены слова, входящие в название фильма, как «quantum» и «solace» при выходе последнего фильма Бондианы «Quantum of Solace».
Термины, объединенные темой — возьмите узкую тему и найдите термины или фразы, которые могут быть тесно связаны, как имена игроков одной команды в спорте или названия этапов в каком-либо процессе.
Переводной материал, источник