К
Кожаные мешки
@meatbags43 подп.
9просмотров
20.9%от подписчиков
24 марта 2026 г.
📷 ФотоScore: 10
Сбер обновил GigaChat — и выложил очень много интересных инженерных подробностей о том, как они это делали. В ноябре выкатили preview Dense-моделей, сейчас — полноценный релиз на MoE-архитектуре (MoE + MTP + MLA). Две модели: Ultra на 702B параметров (36B активных) и Lightning на 10B (1.8B активных). Обе под MIT, обе обучены с нуля без зарубежных весов. Самое ценное в релизе — не сами веса, а разбор на Хабре про то, как они туда дошли. Переход с Dense на MoE вскрыл кучу проблем, которые в теории не описаны. Главная боль — зацикливание генераций. Модель начинала повторять фрагменты бесконечно, и стандартные подходы не помогали. В итоге написали собственную метрику для детекции циклов и пересобрали весь пайплайн пост-трейна. DPO-этап перевели в нативный FP8 — и тут неожиданность: качество вышло выше, чем в bf16, при вдвое меньшем потреблении памяти. Ещё по ходу нашли критичный баг в SGLang при dp > 1, который тихо портил бенчмарки. По цифрам: Ultra обходит DeepSeek-V3-0324 и Qwen3-235B в математике и reasoning. Lightning — на бенчах сравним с сопоставимыми по размеру Qwen, а на аренах уровень GPT-4o. Для локального деплоя — очень конкурентная штука. HuggingFace Хабр @ai_newz
9
просмотров
1196
символов
Нет
эмодзи
Да
медиа

Другие посты @meatbags

Все посты канала →
Сбер обновил GigaChat — и выложил очень много интересных инж — @meatbags | PostSniper