Яндекс работает над единой нейросетью для речи и текста

Яндекс нанимает сотрудников для работы над еще не анонсированной нейросетевой моделью SpeechGPT.

Компания ищет в соответствующую команду инженера в области машинного обучения. Согласно описанию вакансии, модель SpeechGPT должна будет воспринимать текст и звук. Речь идет о мультимодальной модели – модели, способной обрабатывать разные виды вводных данных, которая «умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука».

В Яндексе пояснили, что работают над мультимодальностью в ассистенте «Алиса» и других сервисах. На вопрос о модели SpeechGPT в компании не ответили.

Нейросетевые сервисы компании уже обрабатывают как речь, так и текст, но процесс происходит с преобразованием данных из одного вида в другой. Мультимодальные сети призваны улавливать детали, которые теряются при такой конвертации, например, эмоции и сарказм.

Напомним, в конце мая Яндекс запустил YandexGPT 3 Lite. Это облегченная версия генеративной нейросети третьего поколения, которая теперь доступна клиентам облачной платформы Yandex Cloud через API.

Источник: Коммерсантъ