Сбер создал крупнейшую нейросеть, генерирующую изображения по текстовому описанию

Специалисты Сбера разработали нейронную сеть, которая создает изображения, используя текстовое описание на русском языке. Разработка может быть востребована в сфере дизайна и рекламы, сообщила пресс-служба Сбера.


Создание изображений при помощи ruDALL-E происходит в три этапа: сначала нейросеть принимает текст и генерирует заданное число картинок, на следующем этапе она выбирает, какие из них наиболее удачны и максимально соответствуют описанию, на завершающей стадии – увеличивает их в размере без потери качества.

Нейросеть ruDALL-E одновременно обучается на двух видах данных – изображениях и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. Есть два варианта модели:

  • ruDALL-E XL – содержит 1,3 млрд параметров;
  • ruDALL-E 12B – 12 млрд параметров.

Подобная модель для работы с англоязычным текстом была представлена американской компанией OpenAI в 2021 году, однако она не была полностью выложена в открытый доступ. Разработчики Сбера воспроизвели опубликованный коллегами код и запустили обучение нейросети на платформе ML Space, использующей мощности суперкомпьютера «Кристофари».

В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар «текст-изображение». Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ, – отметили в пресс-службе Сбера.

Модель ruDALL-E XL доступна бесплатно, ее можно загрузить с сервиса Github. Обе модели в ближайшее время будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

Источник: ТАСС

(Голосов: 8, Рейтинг: 4)