Команда AI VK обновила технологию автоматического распознавания речи (ASR), повысив ее точность на 20% по сравнению с предыдущей версией. Улучшения затрагивают качество субтитров, расшифровок голосовых сообщений и «кружочков» в продуктах VK.
ASR-технология переводит голос в текст, очищая звук от шумов и анализируя особенности речи. VK использует сочетание ML-моделей, LLM и нейросетей: они помогают системе лучше понимать контекст, устойчивые выражения и смысловые связи, благодаря чему текст получается более естественным.
Обновленная версия была дообучена на расширенном датасете аудиодорожек из публичных роликов VK Видео, что позволило модели точнее интерпретировать разные темпы и манеру речи. По итогам внутренних тестов, ASR VK превосходит зарубежные аналоги по качеству распознавания (WER) русскоязычных аудио.
Технология используется в:
Обновленная ASR уже внедрена в VK Видео и VK Клипы и будет постепенно интегрироваться в другие продукты группы. В планах AI VK – дальнейшее повышение точности распознавания голосовых сообщений, добавление диаризации (разделение по голосам) и расширение языковой поддержки.
Источник: VK