Яндекс существенно повысил эффективность процессов обучения больших языковых моделей (LLM) – без снижения качества и масштабов разработок. За счет глубокой оптимизации инфраструктуры компании удалось сократить операционные расходы: годовая экономия достигает 4,8 млрд рублей (в среднем 400 млн рублей в месяц).
Ключевым технологическим решением стала собственная разработка Яндекса – библиотека YCCL (Yet Another Collective Communication Library).
С ее помощью удалось в 2 раза ускорить обмен данными между графическими процессорами при обучении нейросетей, сократить объем передаваемой при этом информации и перенести управление с графических на центральные процессоры. Библиотека YCCL масштабируется на крупные кластеры, а ее аналоги есть лишь у ведущих мировых компаний и китайских IT‑гигантов.
Дополнительные улучшения дал переход Яндекса на FP8 – формат с пониженной точностью вычислений, который позволяет быстрее обучать нейросети и тратить на это меньше ресурсов.
Применение FP8 ускорило обучение моделей на 30% и сократило коммуникации – обмен данными – в 2 раза.
Яндекс также провел исследования, которые показали, что увеличение батча (объема передаваемых данных) не приводит к замедлению обучения. Компания увеличила батч до 16-32 млн токенов, что позволило обучать модели в режиме с минимальным простоем ресурсов графических процессоров.
Среди других улучшений: Яндекс повысил стабильность IT-инфраструктуры, уменьшив число аппаратных неполадок и сократив расходы на перезапуск обучения моделей, а также оптимизировал код и усовершенствовал архитектурные решения для обучения ИИ.
Источник: пресс-релиз Яндекса