Т
Технодинамизм
@technodynamism105 подп.
8просмотров
7.6%от подписчиков
17 февраля 2026 г.
Score: 9
◾ Что с этим делать на практике Не фиксируйтесь на одном числе. Смотрите на несколько бенчмарков в категории которая важна именно вам. Нужен код? SWE-bench важнее MMLU. Нужны общие знания? Смотрите MMLU-Pro и GPQA вместе. Chatbot Arena - хороший ориентир для общего качества. Если модель высоко в этом рейтинге, скорее всего она будет хороша для большинства обычных задач. Свежие бенчмарки надёжнее старых. GPQA, MMLU-Pro, LiveBench, HLE - там меньше шансов на contamination чем в классических тестах пятилетней давности. Лучший бенчмарк - ваши собственные задачи. Возьмите 20-30 реальных примеров из вашей работы и прогоните через несколько моделей. Это покажет больше чем любые публичные таблицы, потому что измеряет именно то что вам нужно. ⠀ ◾ Полезные ресурсы: • Chatbot Arena - live рейтинг на основе человеческих предпочтений • Artificial Analysis - сравнение моделей по качеству, скорости и цене • LLM Stats - агрегатор результатов по разным бенчмаркам • SWE-bench - лидерборд по кодингу
8
просмотров
1000
символов
Нет
эмодзи
Нет
медиа

Другие посты @technodynamism

Все посты канала →
◾ Что с этим делать на практике Не фиксируйтесь на одном чис — @technodynamism | PostSniper