
Исследователи Института искусственного интеллекта МГУ и Яндекса создали LORuGEC – первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает дообучить нейросети и повысить точность исправлений на 5–10%. Разработки находятся в открытом доступе, их можно использовать например, для создания образовательных сервисов.
Статья о датасете и методе дообучения нейросетей получила приз за лучшую работу на воркшопе по инновационному использованию ИИ в образовании, который прошел в рамках международной конференции по компьютерной лингвистике ACL 2025.
Проблема существующих языковых моделей заключается в ошибках при работе со сложными правилами русского языка, которые проверяют в том числе на ЕГЭ и олимпиадах. LORuGEC охватывает 48 правил русского языка. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.
Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro и зарубежных аналогах, подтвердив универсальность подхода. Благодаря новому методу нейросети лучше исправляют ошибки.
Напомним, ранее Yandex B2B Tech открыл для бизнеса доступ к Alice AI.
Источник: пресс-релиз Яндекса