VK улучшила технологии распознавания речи: точность выросла на 20%

Команда AI VK обновила технологию автоматического распознавания речи (ASR), повысив ее точность на 20% по сравнению с предыдущей версией. Улучшения затрагивают качество субтитров, расшифровок голосовых сообщений и «кружочков» в продуктах VK.

ASR-технология переводит голос в текст, очищая звук от шумов и анализируя особенности речи. VK использует сочетание ML-моделей, LLM и нейросетей: они помогают системе лучше понимать контекст, устойчивые выражения и смысловые связи, благодаря чему текст получается более естественным.

Обновленная версия была дообучена на расширенном датасете аудиодорожек из публичных роликов VK Видео, что позволило модели точнее интерпретировать разные темпы и манеру речи. По итогам внутренних тестов, ASR VK превосходит зарубежные аналоги по качеству распознавания (WER) русскоязычных аудио.

Технология используется в:

VK Видео и VK Клипах – для автоматических субтитров;
Учи.ру – для образовательных сценариев;
ВКонтакте – для расшифровки голосовых сообщений;
внутренних инженерных сервисах VK – для транскрибации встреч, суммаризации и улучшения мультимодальных моделей Discovery.

Обновленная ASR уже внедрена в VK Видео и VK Клипы и будет постепенно интегрироваться в другие продукты группы. В планах AI VK – дальнейшее повышение точности распознавания голосовых сообщений, добавление диаризации (разделение по голосам) и расширение языковой поддержки.

Источник: VK