Яндекс исправляет автоматически треть запросов

Сегодня День грамотности, и Яндекс отчитался о том, как он работал над исправлением пользовательских ошибок и опечаток последние два года. Успехи в коррекции запросов пользователей связаны с внедрением вероятностных методов, так называемых языковых моделей, которые изучают сочетаемость слов в запросах.

Именно языковые модели позволили исправлять более сложные классы ошибок и давать более точные подсказки: «Только применение языковой модели дало возможность исправлять ошибки, связанные со словарным окружением: это опечатки с лишним или пропущенным пробелом («lovepla net»); когнитивные ошибки слитно-раздельного написания («пост индустриализация»); контекстные ошибки – малапропизмы (неправильные замены одного слова другим, сходным по звучанию, например, «меховой слон»)».

То, что в Яндексе автоматически исправляется почти треть запросов, стало возможным именно благодаря применению языковой модели. Сейчас Яндекс активно работает над фильтром, который позволит не выводить подсказок быстрого набора, в которых уже содержатся опечатки и ошибки. Так как подсказки быстрого набора зависят от частотности запросов, а распространенные запросы могут быть «опечаточными», такой фильтр необходим.

По утверждению Алексея Байтина из группы исправления опечаток, полнота и точность программ исправления запросов росли у всех поисковиков, и у некоторых вышли на уровень 70-80%: «Это значит, что в среднем исправляются три ошибочных запроса из четырех, и в трех случаях из четырех подсказка оказывается правильной».