Датасет из веба (вэба/вёба/web) Ресерчил разные движки для поиска с LLM через API и посоветовали Parallel AI. И да, у них отличный дипресерч, но сегодня не об этом. Сервис предоставляет инструмент FindAll, который позволяет собрать из веба структурированный и обогащенный признаками датасет. Выглядит это так: 1. Формируем запрос, сразу указывая какие-то признаки(enrichments). Например "Find all конференции связанные с ai тематикой запланированые на 2026 год в русскоязычном сообществе, на которые ...
AI да парень! / Sergei Notevskii
Про AI с ноткой иронии Контакты: ЛС - сообщения чата https://instagram.com/sergei_notevskii https://ru.linkedin.com/in/sergeynotevskiy
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
17 из 17Обычно переход с API (MaaS) на self-hosted подают как способ сэкономить. Но если смотреть на это из реального контекста, то экономика - это только один из слоев. Главная проблема своего кластера локальных моделей в том, что ты внезапно становишься ответственным за всё: от доступности железа до деградации качества и латентности, которую раньше гарантировал провайдер. В Битрикс24 мы работаем на объемах в десятки миллионов запросов к llm, и там "просто поднять deepseek" не работает - вылезает ворох...
Дипсик можно не ждать. Qwen опять выкатили модель, которую все будут использовать ближайшие полгода. Qwen3.5-397B-A17B Кратко: - Гибридная архитектура как у Qwen-Next (Gated Delta+MoE). Те скорость будет очень хорошей относительно конкурентов. Я давно порывался написать хвалебные отзывы на Qwen-Next, который выдает 140токенов/сек на A100 при условии квантизации AWQ и при этом отвечает лучше того же Qwen3-32b(dense), но уже видимо поздно. - VL под капотом, понимание изображений лучше чем qwen3-vl...
Кэш кэш кэш... Есть одна история, которая сильно влияет на экономику и скорость llm в проде и при этом имеет, на первый взгляд одновременно супер простое применения. Как это модно называть «быстрая победа». Я про префикс-кэш (prefix_cache). Идея одним предложением:…
Никогда не участвовал в таких форматах мероприятий, но решил попробовать. 19–22 марта еду на кэмп Snow BASE для C-level в Data & AI в Красную Поляну. Решил буквально из-за формата - разбор реальных кейсов с внутренней кухней от ребят которые внедряют AI в промышленных масштабах. И все это совмещенное с горнолыжкой. Подробнее про формат можно почитать тут. Посмотрите программу сами и поймёте зачем туда ехать. Такая концентрация людей одного уровня в одном месте случается редко. Ну и важное: плани...
Мой коллега Сева выкатил свежую статью на Хабре - про тестирование ai-сценариев и агентов. Внутри - конкретный путь от отсмотра ответов «глазками» до работающей системы бенчмарков, LLM-судей, Langfuse и конечно грабли которые мы собрали по дороге. Все это на примере реальных кейсов из прода. Читается за 9 минут, и есть что унести с собой. И уже по традиции: договорился, что Сева ответит на вопросы в комментах к этому посту - если что-то осталось непонятным или хочется уточнить детали реализации)
OpenAI: GPT 5.2 Pro - наша самая продвинутая модель, решила очередные невероятные задачи! Тем временем GPT 5.2 Pro: не находит доступ до необходимого репозитория о чем думает 20 минут, вместо того чтобы сказать сразу
Кэш кэш кэш... Есть одна история, которая сильно влияет на экономику и скорость llm в проде и при этом имеет, на первый взгляд одновременно супер простое применения. Как это модно называть «быстрая победа». Я про префикс-кэш (prefix_cache). Идея одним предложением: если начало вашего запроса к модели повторяется - вы перестаёте каждый раз заново “прогревать” модель этим началом. И внезапно улучшается и latency, и cost. И я искренне удивляюсь, когда инженеры-строители ai-сервисов пренебрегают эти...
#300tps vLLM-SR - роутер/комбайн который смог. Есть классическая боль в проде (особенно с чатовыми ассистентами): большая дорогая модель с reasoning обрабатывает "привет, переведи текст". На небольшом трафике незаметно, на большом - не хочется смотреть в статистику)) Когда OpenAI сделал авторежим (модель сама решает, включать reasoning или нет, без явного указания в промпте) - хотелось такое же у себя, под своими моделями. И я точно знаю, что такие решения большие многие делают для себя. Очевидн...
Дипсик можно не ждать. Qwen опять выкатили модель, которую все будут использовать ближайшие полгода. Qwen3.5-397B-A17B Кратко: - Гибридная архитектура как у Qwen-Next (Gated Delta+MoE). Те скорость будет очень хорошей относительно конкурентов. Я давно порывался…