Сбер обновил GigaChat — и выложил очень много интересных инж — @meatbags

9просмотров

20.9%от подписчиков

24 марта 2026 г.

📷 ФотоScore: 10

Сбер обновил GigaChat — и выложил очень много интересных инженерных подробностей о том, как они это делали. В ноябре выкатили preview Dense-моделей, сейчас — полноценный релиз на MoE-архитектуре (MoE + MTP + MLA). Две модели: Ultra на 702B параметров (36B активных) и Lightning на 10B (1.8B активных). Обе под MIT, обе обучены с нуля без зарубежных весов. Самое ценное в релизе — не сами веса, а разбор на Хабре про то, как они туда дошли. Переход с Dense на MoE вскрыл кучу проблем, которые в теории не описаны. Главная боль — зацикливание генераций. Модель начинала повторять фрагменты бесконечно, и стандартные подходы не помогали. В итоге написали собственную метрику для детекции циклов и пересобрали весь пайплайн пост-трейна. DPO-этап перевели в нативный FP8 — и тут неожиданность: качество вышло выше, чем в bf16, при вдвое меньшем потреблении памяти. Ещё по ходу нашли критичный баг в SGLang при dp > 1, который тихо портил бенчмарки. По цифрам: Ultra обходит DeepSeek-V3-0324 и Qwen3-235B в математике и reasoning. Lightning — на бенчах сравним с сопоставимыми по размеру Qwen, а на аренах уровень GPT-4o. Для локального деплоя — очень конкурентная штука. HuggingFace Хабр @ai_newz

Другие посты @meatbags