Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
Россия +7 (909) 261-97-71
26 Ноября в 15:09

МГУ и Яндекс создали первый открытый датасет для обучения нейросетей сложным правилам русского языка

Россия +7 (909) 261-97-71
0 658
Подпишитесь на нас в Telegram

Исследователи Института искусственного интеллекта МГУ и Яндекса создали LORuGEC – первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает дообучить нейросети и повысить точность исправлений на 5–10%. Разработки находятся в открытом доступе, их можно использовать например, для создания образовательных сервисов.

Статья о датасете и методе дообучения нейросетей получила приз за лучшую работу на воркшопе по инновационному использованию ИИ в образовании, который прошел в рамках международной конференции по компьютерной лингвистике ACL 2025.

Проблема существующих языковых моделей заключается в ошибках при работе со сложными правилами русского языка, которые проверяют в том числе на ЕГЭ и олимпиадах. LORuGEC охватывает 48 правил русского языка. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.

Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro и зарубежных аналогах, подтвердив универсальность подхода. Благодаря новому методу нейросети лучше исправляют ошибки.

Напомним, ранее Yandex B2B Tech открыл для бизнеса доступ к Alice AI.

Оригинал новости на SEOnews

Источник: пресс-релиз Яндекса

0 комментариев
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.

Отправьте отзыв!
X | Закрыть