
Сегодня День грамотности, и Яндекс отчитался о том, как он работал над исправлением пользовательских ошибок и опечаток последние два года. Успехи в коррекции запросов пользователей связаны с внедрением вероятностных методов, так называемых языковых моделей, которые изучают сочетаемость слов в запросах.
Именно языковые модели позволили исправлять более сложные классы ошибок и давать более точные подсказки: «Только применение языковой модели дало возможность исправлять ошибки, связанные со словарным окружением: это опечатки с лишним или пропущенным пробелом («lovepla net»); когнитивные ошибки слитно-раздельного написания («пост индустриализация»); контекстные ошибки – малапропизмы (неправильные замены одного слова другим, сходным по звучанию, например, «
То, что в Яндексе автоматически исправляется почти треть запросов, стало возможным именно благодаря применению языковой модели. Сейчас Яндекс активно работает над фильтром, который позволит не выводить подсказок быстрого набора, в которых уже содержатся опечатки и ошибки. Так как подсказки быстрого набора зависят от частотности запросов, а распространенные запросы могут быть «опечаточными», такой фильтр необходим.