786просмотров
10 февраля 2026 г.
question📷 ФотоScore: 865
😬 NaN в Loss при трейне? Ваши данные - 👁👁👁👁👁 Мы тут разрабатываем нашу AI платформу, которая позволяет не только запускать боты и модельки, но и ещё собирать автоматом датасеты, тюнить модельки, делать им RAG по красоте и так далее. И вот пишет мне вчера разработчик, что столкнулись они с проблемой - в train/loss и grad_norm внезапно появился NaN. Первым делом конечно же надо посмотреть на конфиг и что мы вообще тренируем. Помнится, у gemma была проблема в расчёте loss при использовании bfloat16. Но тут использовался наш Zero-Mistral-24B. Если вы не просто тыкатель кнопок и запускатель unsloth, то становится очевидно, что проблема с данными. В данном случае было пустое сообщение ассистента. Поскольку мы делаем SFT - на этом конкретном семпле loss считается не правильно, что и приводит к NaN во всех метриках и битому трейну. Вывод: чекайте данные. Ну а мы в своём AI Chief теперь сделаем автоматические проверялки в том числе на предмет подобных проблем в датасетах. Кстати, в данном конкретном случае речь шла о нашей тестовой модельке, которая помогает отвечать детям в тех.поддержке Школково. Пока что она иногда ошибается, но решение на этот счёт есть и уже находится в разработке.
786
просмотров
1201
символов
Да
эмодзи
Да
медиа

Другие посты @ak_segfault

Все посты канала →