Специалисты Сбера разработали нейронную сеть, которая создает изображения, используя текстовое описание на русском языке. Разработка может быть востребована в сфере дизайна и рекламы, сообщила пресс-служба Сбера.
Создание изображений при помощи ruDALL-E происходит в три этапа: сначала нейросеть принимает текст и генерирует заданное число картинок, на следующем этапе она выбирает, какие из них наиболее удачны и максимально соответствуют описанию, на завершающей стадии – увеличивает их в размере без потери качества.
Нейросеть ruDALL-E одновременно обучается на двух видах данных – изображениях и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. Есть два варианта модели:
Подобная модель для работы с англоязычным текстом была представлена американской компанией OpenAI в 2021 году, однако она не была полностью выложена в открытый доступ. Разработчики Сбера воспроизвели опубликованный коллегами код и запустили обучение нейросети на платформе ML Space, использующей мощности суперкомпьютера «Кристофари».
В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар «текст-изображение». Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ, – отметили в пресс-службе Сбера.
Модель ruDALL-E XL доступна бесплатно, ее можно загрузить с сервиса Github. Обе модели в ближайшее время будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.
Источник: ТАСС