7 Сентября 2012 в 09:00

О словоформах Яндекса

14 24722
Андрей Белоусов
CEO,
HTraffic

Русский язык, конечно, велик и могуч, однако, он еще и неимоверно сложен, и часто наше интуитивное представление идет вразрез с формальным. Например, формально, «лучший» — это словоформа слова «хороший», поскольку является его превосходной степенью. А «красивый» и «красиво», в большинстве случаев, разные слова, поскольку, «красивый» — прилагательное, а «красиво» — наречие.

Еще больше отличаются от нашего интуитивного представления результаты машинного разбора. В этой статье я покажу, что представление Яндекса о словоформах отличается от человеческого и то, что это влияет на выдачу.

Машинные словоформы

С сайта 1september.ruВ русском языке несколько сотен тысяч слов, каждое из которых имеет по несколько десятков словоформ, причем каждая из них имеет полдюжины свойств (род, число, падеж, форма и т.д). Например, любое прилагательное может находиться в семи падежах, в краткой форме, в трех родах, двух числах, в сравнительной и превосходной степени, быть одушевленным или нет. В итоге, прилагательное может иметь аж 8×4 x 2×2 + 1 = 129 cловоформ, причем, больше половины из них будут иметь разные окончания.

В некоторых бумажных морфологических словарях, чтобы сэкономить место группируют слова по окончаниям в так называемые морфологические группы. Например, слова «великий» и «могучий» имеют в одинаковых словоформах одинаковые окончания. Эти группы нумеруют и для слова указывается только его начало общее для всех словоформ и его морфологическая группа: «Могучий. могуч*, группа 21».

В большинстве электронных баз поступают также. На вариант с сохранением всех словоформ отдельно нужно около 500 МБ памяти, на второй (с группами) — около 10ти. В принципе, 500 МБ для сервера не так уж много, однако морфология Яндекса писалась где-то лет десять назад. А в это время для нескольких сотен серверов покупка такого объема памяти могла обойтись в копеечку.

С тех пор правила русского языка не изменялись, а следовательно, не было особой нужды полностью переписывать морфологию. Ведь системное изменение в морфологии привело бы к необходимости целого каскада изменений в других частях кода.

Словоформы и синонимы

Хотя зачем гадать? Словоформы одного слова выделяются в результатах поиска жирным. Однако вместе с ними выделяются еще и синонимы. Поэтому мы не можем сказать определил ли поисковик слова в снипете и запросе как словоформы или попросту счел их синонимами. В Яндексе оператор плюс отключает подсветку синонимов, оставляя только подстветку словоформ. Убедиться в этом можно набрав запросы «гостиницы Одессы» (слово «отель» будет подсвечено) и «+гостиницы Одессы» (слово «отель» не будет подсвечено).

Большинство современных морфологических баз ведут свое начало из морфологического словаря Зализняка, в котором для экономии места были введены морфологические группы. Однако группировка в нем, обладает некоторыми «артефактами», например, глаголы и их причастия и деепричастия (купить/купивший) — это словоформы, а глаголы совершенного и несовершенного (делать/сделать) вида — нет.

Так или иначе, я проверил Яндекс на все известные мне «артефакты» базы АОТ.ru, с которой я работал, и все из них Яндекс содержал. Правда, Яндекс использует базу «синонимов», в том числе и для того чтобы исправить разницу в человеческом и машинном восприятии словоформ. Например, при запросе «делать дымовую шашку» подсвечивается и слово «сделать», однако стоит добавить плюс перед словом «делать», и подсветка «сделать» исчезает, а «делать» остается.

Словоформы Google

Английская морфология не так могуча и велика: у слов всего несколько словоформ. Поэтому оптимизация памяти не оправдывает группировку слов. И, вполне возможно, что для общности кода с английской версией русская морфология Google написана без использования морфологических групп и поэтому была лишена «артефактов» Яндекса.

Google в отличие от Яндекса по запросу «сделанный» не ищет слово «сделать». Например, наберите «как правильно сделанный клизму» в Google и Яндекс. Другой пример: отключить подсветку слова «сделать» по запросу «делать» в Google у меня никак не получилось, хотя почти всегда Google подсвечивает только словоформы. Следовательно, для Google «делать» и «сделать» — это словоформы, а не что-то вроде синонимов как у Яндекса.

Как бы парадоксально это бы ни звучало, русская морфология Google реализована правильнее чем у Яндекса. И вся ирония в том, что это следствие английского происхождения Google. Морфология Google именно «правильнее», но не факт, что «лучше». У кого выдача релевантнее — спорный вопрос. Ровно как и то, что должно выдаваться по запросу «как правильно сделанный клизму».

Разница в ранжировании

Подсветка и неподсветка с помощью плюса словоформ говорит лишь о разнице в восприятии их Яндексом: часть словоформ определяется морфологией сразу, часть из связей по типу синонимов. Вполне вероятно, что Яндекс учитывает морфологические и синонимиальные словоформы одинаково и разницы в ранжировании может не существовать.

Сейчас нет метода общепринятой оценки разницы выдачи и программных средств для его расчета, а вручную оценить выдачу по нескольким сотням запросов — проблематично. Этим способом доказать, что существует разница в ранжировании разных типов словоформ, нет. Можно найти этому только косвенные подтверждения.

Число найденных страниц, если запрашивать машинные словоформы, отличается не больше чем на 1%, а если запрашивать словоформы-синонимы, обычно, разница в 10-30%.

  • «сделать яндекс стартовой страницей» — 5 млн.
  • «сделал яндекс стартовой страницей» — 5 млн.
  • «делать яндекс стартовой страницей» — 7 млн.
  • «делал яндекс стартовой страницей» — 7 млн.

Также сравнить изменения в выдаче в Яндексе и Google. Разницы в выдаче по запросам «как правильно сделать клизму» и «как правильно делать клизму» в Google почти нет, а в Яндексе только 2 страницы остались в первой десятке и то значительно поменяли свои позиции.

Существуют некоторые слова, которые подсвечиваются странным образом. Например, для слова купить словоформы его несовершенного вида (покупать) подсвечиваются и при наличии плюса. Другими словами, Яндекс ввел для этого слова исключение в поиске, хотя для Яндекс WordStat это два разных слова. Если же выдача по синонимам и словоформам была бы аналогичной, не было никакого смысла делать исключение для этого слова.

Слово «купить» довольно часто встречается в запросах (40 млн. показов в месяц по Вордстат), и дополнительные действия для улучшения его ранжирования вполне вероятны. Однако непонятно каким образом улучшается выдача от введения прямой связи слов «купить» и «покупать», допустим, разработчикам или асессорам виднее. Нам нужно найти еще одно исключение, в котором улучшение выдачи очевидно.

И это исключение «варить» и «варка». По Вордстату у «варить» миллион показов, а у «варки» не более 100 тысяч. Однако, если к статье не приложит руку сеошник, то она будут называться «варка кофе», а не «как варить кофе?». Здесь польза для ранжирования очевидна.

Исключения подтверждают правила и с большой степенью уверенности можно сказать, что морфологические словоформы ранжируются выше, чем словоформы-синонимы.

ВЧ запросы

Подсветка синонимов отключается не только при использовании плюса. Если мы наберем «гостиницы Москвы», то подсветки отелей не будет, а если «гостиницы Москвы центр» или «гостиницы Одессы» — то она включится. Следовательно, существует определенный порог, после которого синонимы в выдачу не включаются, чтобы ее не ухудшить. Этот порог, скорее всего, зависит от числа страниц в индексе либо релевантности первых страниц выдачи, а не от частотности запроса.

Правила

Глаголы совершенного и несовершенного вида не словоформы

  • Актуально только для Яндекса.
  • Сделать≠делать
  • Исключения: купить и покупать, выщипывать и выщипать, отправлять и отправить

Глаголы, причастия и деепричастия — словоформы друг друга

  • Актуально только для Яндекса.
  • Сделать=сделаю=сделал=сделавший=сделанный=...
  • Поскольку причастия склоняются по роду, числу и падежу, а также залогу, то у глаголов получается больше 100 словоформ по Яндексу. А например, у слова купить (из-за исключений) — их еще больше. Причастия можно успешно использовать, чтобы улучшить ранжирования глаголов. Например, «купленный», «купившие» — словоформы слова купить.

Разные части речи не могут быть слоформами друг-друга

  • Актуально для Яндекса и Google
  • Покупать≠покупка≠покупатель
  • Красавец≠красивый
  • Сильный удар≠сильно ударить
  • Исключения для Яндекса: варить и варка, а также причастия, деепричастия и глаголы

Все словоформы существительных одного рода.

  • Актуально для Яндекса и Google
  • Красавец≠красавица
  • Повар≠повариха

Превосходная степень прилагательных — одна из словоформ

  • Актуально только для Яндекса
  • Красивый=Красивейший=Красивейшая=Красивейшую=...
  • Хороший=лучший
  • Надежный=Надежнейший=...
  • Однако, прекрасный≠красивый (это просто синонимы)

Сравнительная степень прилагательных — одна из словоформ

  • Актуально для Яндекса и Google
  • Красивый=красивее
  • Надежный=надежнее
  • Исключение для Google: хороший≠лучше. Эту словоформу Google относит к превосходной степени (лучший).

У Google группировка слов происходит чисто по интуитивному сходству слов, а не по формальным правилам русского языка. Это хорошо видно по «хороший» и «лучше», для всех остальных прилагательных сравнительная степень отнесена к обычной, а не превосходной форме.

Как было уже сказано, почти наверняка релевантность словоформ-синонимов ниже, чем морфологических словоформ. Поэтому, оптимизируя посадочную страницу, старайтесь использовать словоформы именно в машинном представлении, а не в человеческом. Особенно это актуально, когда вы вставляете популярное уточнение в шаблон сайта, ведь таким образом вы изменяете несколько сотен или даже тысяч страниц.

P.S.

Указывая на сходство структуры морфологической базы Яндекса и словаря Зализняка, я никоим образом не намекал на плагиат. По принципу Анны Карениной способы правильной реализации чего-либо похожи. Более того, принцип структурирования чего-либо не может быть объектом авторского права.

14 комментариев
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:
  • Гость
    6 месяцев назад
    lred.ru/index.php/optimizacia/12406-%D0%BE-%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%85-%D1%8F%D0%BD%D0%B4%D0%B5%D0%BA%D1%81%D0%B0
    думаю вам будет это интересно
    -
    0
    +
    Ответить
    Поделиться
  • Иван
    больше года назад
    А есть парсер для поиска синонимов по списку запросов?
    -
    -1
    +
    Ответить
    Поделиться
  • andrey
    6
    комментариев
    0
    читателей
    andrey
    больше года назад
    Синонимы учитываются слабее
    -
    0
    +
    Ответить
    Поделиться
  • hkey
    больше года назад
    купить и продажа синонимы, а не словоформы. проверяется плюсом
    -
    -3
    +
    Ответить
    Поделиться
  • hkey
    больше года назад
    Оператор + это не уточнение. Он значит придать больший вес слову.
    -
    0
    +
    Ответить
    Поделиться
  • hkey
    больше года назад

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синони...

    Я оцениваю не разницу в выдаче по запросу с плюсом и без него. Просто те словоформы у которых отключается подсветка называю словоформами-синонимами у которых не отключается - машинными словоформами. И дальше доказываю, что разница в выдаче по машинной словоформе ниже чем по словоформе-синониму.


    Тогда как объяснить отключения подсветки части словоформ при плюсе или при ВЧ и то что артефакты такого поведения совпадают с поведением базы АОТ.


    Синонимы учитываются, но слабее чем словоформы.
    -
    1
    +
    Ответить
    Поделиться
  • Гость 12321
    больше года назад

    странно, введите "купить шины" и "продажа шин"
    получается, купить=продажа
    Или я что-то недопонял?
    -
    -1
    +
    Ответить
    Поделиться
  • Saveljev
    2
    комментария
    0
    читателей
    Saveljev
    больше года назад
    Андрей Белоусов, спасибо за материал.
    -
    0
    +
    Ответить
    Поделиться
  • Boniface
    больше года назад
    Соглашусь - он хорошь ...)
    -
    -1
    +
    Ответить
    Поделиться
  • Николай
    больше года назад


    Оператор + это уточнение, дополнение к основному запросу. Например, пластиковые онка + купить, установить, ремонтировать, монтаж, в Москве, рехау и т.д. А при использовании оператора в начале запрос непонятно дополнением к чему он является!
    -
    0
    +
    Ответить
    Поделиться
  • yanus
    больше года назад
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ...
    Весьма спорная статья. Попытка через оператор "+" и подсветку сниппетов оценить подход яндекса к морфологии имеет ряд проблем.
    Во-первых, сам оператор "+" не просто модифицирует запрос, а меняет его. Выдача совсем другая, поэтому сравнивать результаты некорректно.
    Во-вторых, работа алгоритма аннотации сайтов в выдаче весьма самостоятельна и не всегда жестко завязана на алгоритмах ранжирования.

    Непосредственно по морфологическим словоформам ситуация вполне понятна - они учитываются.

    По синонимам ситуация сложнее. Учет или не учет можно проверить только опытным путем. Для экономии времени, могу сказать, что были прецеденты, когда в региональной выдаче по среднеконкурентным запросам в топ3 были сайты, на страницах и входящих анкорах которых отсутствовал изначальный запрос, но была высокая плотность "синонима".
    -
    0
    +
    Ответить
    Поделиться
  • pavko
    больше года назад
    Интересная инфа, спасибо.
    Побольше бы таких
    -
    -1
    +
    Ответить
    Поделиться
  • Сергей
    больше года назад
    Спасибо за полезную информацию
    -
    0
    +
    Ответить
    Поделиться
  • действительно
    больше года назад
    редко попадается интересное чтиво
    В последнее время все чаще статьи от К.О. и со скрытой рекламой
    Спасибо!
    -
    -1
    +
    Ответить
    Поделиться

Отправьте отзыв!
X | Закрыть