#300tps vLLM-SR - роутер/комбайн который смог. Есть классиче — @sergeinotevskii

2.1Kпросмотров

48.8%от подписчиков

6 марта 2026 г.

stats📷 ФотоScore: 2.3K

#300tps vLLM-SR - роутер/комбайн который смог. Есть классическая боль в проде (особенно с чатовыми ассистентами): большая дорогая модель с reasoning обрабатывает "привет, переведи текст". На небольшом трафике незаметно, на большом - не хочется смотреть в статистику)) Когда OpenAI сделал авторежим (модель сама решает, включать reasoning или нет, без явного указания в промпте) - хотелось такое же у себя, под своими моделями. И я точно знаю, что такие решения большие многие делают для себя. Очевидная же штука - давайте роутить в умныебольшиедорогие модели только то, что этого требует. И вот почитывая блог vLMM наткнулся на первый мажорный релиз vLLM Semantic Router v0.1 (далее SR). Развернул, потестил, принёс команде. Делюсь что нашёл - включая аргументы против. Что это такое Прослойка между фронтом и моделями. Смотрит на входящий запрос и решает: отдать быстрой и дешевой 8B(или сейчас уже можно 0.5B?) или будить большого агента. Написан на Rust, классифицирует через лёгкие модели на CPU. Инженерно аккуратно, но под капотом комбайн. По данным самих vLLM, по сравнению с тем чтобы вести все запросы на большую модель (брали какую-то из топовых проприетарных): - 47% латентности, - 48% токенов, + 10% точности Про точность это вообще отдельный момент. Насколько я понял из статьи - в некоторых простых кейсах большая модель отвечает хуже, как раз из-за того что слишком много думает. Хотя конечно вендорским цифрам не доверяем по умолчанию) Нужно тестить более подробно. Еще нюанс: сам SR добавляет 200мс-1с оверхед на каждый запрос. Профит появляется только если за счёт роутинга на 8B итоговое время ответа реально меньше. Приятный сюрприз - UI дашборд. Честно не ожидал что там будет нормальный дашборд. Ну хорошо что не репозиторий с SPEC.md как в symphony. Но он есть: видно как обрабатываются сигналы и принимается решение по каждому запросу, можно редактировать правила прямо там, есть playground чтобы тестировать на живых запросах и смотреть что сработало и почему. По меркам нишевых "инфра"-инструментов - круто. Кстати есть паблик версия дашборда где можно поиграться. Коллеги сразу поймали главный риск: если поставить SR внутрь агентского цикла - он сломает флоу. Ты в середине сложной задачи, а регулярка роутера триггерится не туда. Контекст - всё. Где реальная ценность SR должен хорошо сработать если стоит ДО всего, особенно до агентского цикла. И вот тогда он закрывает сразу несколько болей одним слоем: Роутинг - это только первое. Простые запросы уходят на малышей, сложные - к большой модели. Но дальше интереснее. Я там выше писал про комбайн. Кроме всей этой намотки с роутером, они реализовали несколько слоев, которые могут хорошо упросить обработку запросов: Semantic cache - похожие запросы вообще не долетают до модели, возвращается кэшированный ответ. Поверх роутинга это отдельный большой выигрыш по токенам и времени, особенно если запросы хорошо кэшируются. Tool Selection - SR по семантике запроса режет каталог инструментов до отправки в модель. Агент получает только релевантные. Safety из коробки - PII-фильтрация и jailbreak-детект встроены как плагины. HaluGate - детект галлюцинаций прямо на выходе модели, до того как ответ ушёл пользователю. Трёхступенчатый: сначала определяет нужна ли фактчек-проверка вообще, потом находит конкретные токены под вопросом, потом объясняет почему. Вот эта интересная штука, которой займусь отдельно. Ну и все это плагинами - включил то что нужно, что не нужно - нет. Плюс ко всему модели для классификации можно подставлять любые свои. Буду ресерчить дальше - интересно как ведёт себя под реальной нагрузкой. Если используете sr или аналог в проекте - призываю в комменты.

Другие посты @sergeinotevskii