Сбер научил GigaChat писать музыку по текстовому запросу

Сбер интегрировал в GigaChat нейросети CLaMP и SymFormer. Это позволит GigaChat генерировать музыкальные треки по произвольным текстовым запросам пользователей.

Пользователю нужно сформулировать задачу, например, «сочини веселую музыку в стиле кантри» или «напиши трек для лаундж-зоны бизнес-центра». GigaChat пришлет аудиофайл с уникальной музыкальной композицией и даже нотную партитуру в формате MIDI.

При этом создание музыки происходит в несколько этапов:

  1. Сначала модель CLaMP обрабатывает запрос пользователя и конвертирует его в понятный для генератора мелодий язык.
  2. Затем в SymFormer генерируется несколько вариантов мультидорожечного трека, из которых нейросеть выбирает наиболее удачные варианты по стилю и композиции.
  3. На последнем этапе формируется аудиофайл и передается пользователю.

Об этом рассказал Денис Филиппов, вице-президент по цифровым поверхностям «Салют» Сбербанка, в рамках международной конференции по искусственному интеллекту AI Journey 2023.

Одним из сегментов целевой аудитории сервиса мы видим представителей среднего и малого предпринимательства. Благодаря GigaChat они смогут быстро, качественно и, что важно, абсолютно легально решать задачи бизнеса: создавать фоновое музыкальное сопровождение для кафе, салонов красоты и залов ожидания, генерировать треки для рекламных видеороликов и соцсетей.

Для обучения SymFormer использовались платформа ML Space на базе суперкомпьютера Christofari и датасет из более 200 тысяч композиций разных стилей: от классики до современной электронной музыки и рока.

По ссылке собрали все новости про GigaChat.

Источник: Код Дурова

(Голосов: 2, Рейтинг: 5)