Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
Россия +7 (909) 261-97-71
Сегодня в 14:21

Сбер опубликовал первую в России диффузионную большую языковую модель GFusion

Россия +7 (909) 261-97-71
0 76
Подпишитесь на нас в MAX

Исследователи из Сбера разработали и опубликовали первую в России большую языковую модель GFusion. Ее работа основывается на тех же принципах, которые используются диффузионными нейросетями для генерации изображений и роликов. Этот подход ускорил написание текстов на 45% по сравнению с классической большой языковой моделью, на базе которой обучался новый ИИ.

Даниил Тихонов, инженер Сбера:

Диффузионные модели лучше структурируют ответы и могут самостоятельно выбирать порядок его написания, а не генерировать его последовательно. По сравнению с классическими моделями они также более эффективно используют ограниченный объем данных при обучении. Это пока во многом открытое направление – устоявшихся архитектурных стандартов здесь меньше, что дает больше пространства для собственных решений.

Как объясняет Даниил Тихонов, существующие большие языковые модели генерируют текст последовательно, слово за словом, что вынуждает модель переписывать весь ответ заново, если она находит какую-то ошибку в уже сгенерированном тексте. В отличие от этого, диффузионные нейросети, часто применяемые для генерации изображений и видео, создают приблизительный «набросок» ответа, а затем пошагово дорабатывают его.

Также у этого подхода есть и другие преимущества:

  • позволяет более гибко генерировать «блоки» ответов и вырабатывать их не по одному, а пачками;
  • диффузионные модели способны извлекать больше информации из ограниченного объема данных, обучаясь на одном и том же наборе данных несколько раз.

Эти плюсы данного подхода к созданию нейросетей заставляют ученых со всего мира активно внедрять его в большие языковые модели.

В частности, специалисты Сбера разработали и опубликовали в открытом доступе диффузионную языковую модель GFusion, а также набор инструментов, ускоряющих обучение этих систем ИИ и позволяющих проводить данный процесс с применением меньшего числа видеокарт. Также исследователи дополнили самые популярные в индустрии инструменты для запуска языковых моделей, добавив в них возможность работы с диффузионными нейросетями.

Федор Минькин, технический директор фундаментальных моделей GigaChat:

Насколько нам известно, это первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Диффузионные языковые модели – одно из самых перспективных и сложных направлений в генеративном ИИ, и у нас в команде стажер смог не просто разобраться в архитектуре, а довести модель до открытого релиза.

Напомним, в июне 2026 года Сбер объявил о выпуске обновленной версии ИИ-помощника для программистов GigaCode. Ранее СберТех представил платформу, которая поможет бизнесу контролировать работу ИИ.

Источник: ТАСС

0 комментариев
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.

Отправьте отзыв!
X | Закрыть