МГУ и Яндекс создали первый открытый датасет для обучения нейросетей сложным правилам русского языка

Исследователи Института искусственного интеллекта МГУ и Яндекса создали LORuGEC – первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает дообучить нейросети и повысить точность исправлений на 5–10%. Разработки находятся в открытом доступе, их можно использовать например, для создания образовательных сервисов.

Статья о датасете и методе дообучения нейросетей получила приз за лучшую работу на воркшопе по инновационному использованию ИИ в образовании, который прошел в рамках международной конференции по компьютерной лингвистике ACL 2025.

Проблема существующих языковых моделей заключается в ошибках при работе со сложными правилами русского языка, которые проверяют в том числе на ЕГЭ и олимпиадах. LORuGEC охватывает 48 правил русского языка. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.

Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro и зарубежных аналогах, подтвердив универсальность подхода. Благодаря новому методу нейросети лучше исправляют ошибки.

Напомним, ранее Yandex B2B Tech открыл для бизнеса доступ к Alice AI.

Оригинал новости на SEOnews

Источник: пресс-релиз Яндекса