VK Видео обновил алгоритмы искусственного интеллекта, который автоматически распознает речь и добавляет субтитры в видео. Нейросети теперь знают тысячи новых слов, включая мемы, имена собственные, акронимы и профессиональные термины.
Точность анализа и расшифровки выросла на 25%.
Автоматические субтитры создаются Ml-моделями. Чтобы повысить точность, аудиопоток пропускают через несколько этапов обработки, на которых нейросеть отсеивает посторонние звуки, выделяет речь и превращает ее в текст. После этого модели денормализации и пунктуации превращают распознанные слова в удобный, читаемый текст. Потом ИИ синхронизирует получившийся текст с аудиодорожкой.
Планируется, что скоро нейросети будут различать голоса, что позволит разделять речь разных спикеров на отдельные реплики. Благодаря этому читать и воспринимать субтитры станет еще проще.
Субтитры в видео помогают людям с нарушениями слуха, и удобна в условиях, когда нет возможности включить звук. VK сообщает, что эта технология становится все популярнее:
Доля пользователей, использующих эту функцию в веб-версии, только за последний месяц увеличилась на 28%, и сейчас субтитрами пользуются 11% всей аудитории VK Видео.
Напомним, что с момента официального запуска в сентябре 2023 года приложение VK Видео установили более 20 млн раз.
Источник: пресс-релиз VK