Яндекс представил новую технологию для генерации изображений — латентную диффузию. Модель YandexART 1.3. лучше понимает текстовые запросы и создает более точные и реалистичные изображения.
Технология латентной диффузии создает промежуточное представление изображения в формате латентного кода – компактного описания с основными данными об изображении в сжатом формате. Затем нейросеть разворачивает код в полноценное изображение высокого разрешения. Как отметили в Яндексе, данный метод эффективнее многоэтапного уточнения картинки в каскадной диффузии. Технология латентной диффузии требует меньше вычислительных мощностей и при этом позволяет генерировать более совершенную графику.
Кроме того, компания в 2,5 раза увеличила датасет, на котором обучалась нейросеть – до более чем 850 миллионов пар картинок с текстом. Также в него добавили синтетические тесты.
Для того чтобы YandexART учитывала больше деталей из промта, в новой модели используются не один, а два текстовых энкодера, с помощью которых модель переводит текстовый запрос.
YandexART также теперь позволяет создавать картинки в разных форматах: 16:9, 4:3 или 3:4. Обновление уже действует в «Шедевруме», вскоре оно появится и в других сервисах компании.
Напомним, в Шедевруме появился ручной режим создания видео.
Источник: RB.RU