Последние пару месяцев я плотно работал над этим релизом, и наконец-то мы выкатываем его в опенсорс! 📟 Встречайте SWE-rebench-V2: самый большой открытый, мультиязычный датасет для обучения кодовых агентов! Вместе с командой Nebius AI R&D мы построили пайплайн для масштабного сбора задач из реальных GitHub репозиториев и теперь делимся всем с комьюнити. На текущий момент это самый большой и разнообразный открытый датасет подобных задач в мире. Что внутри: > 32 000+ задач — на базе реал...
commit history
история моих коммитов про машинное обучение, карьеру и набитые шишки @ibragim_bad
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
17 из 17🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта. > Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях. > Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете. > Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов. > RFT на этих данных, SWE-bench Verified: Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1. Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1. Также сильный р...
Мы тут в Nebius AI R&D выкатили новый тул для всех, кто работает с кодовыми агентами – ConTree 🌳 https://contree.dev/ Пока в альфа релизе, будем рады фидбеку и вопросам! Начинаем раскатывать понемногу перед большим релизом, чтобы собрать фидбек и шлифануть все. Мы давно работаем с агентами, и одна из ключевых сильных сторон нашей команды – это умение пилить инфру. С агентами всегда стоит вопрос: где им безопасно и быстро выполнять код? В докере есть ограничения, а обычные виртуалки — слишк...
Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект! Авторы: @southfreebird, @Olegbalakhnov и @zaringleb. Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз меньше (0.5B vs 3B в оригинальной работе), которая показывает success rate 94.1% на Libero benchmark (против 94.7% у оригинальной модели). VLA (Vision-Language-Action) это модель, которая смотрит на картинку, понимает текстовую команду и сразу выд...
SWE-rebench приняли на NeurIPS 2025🔥 NeurIPS – одна из самых престижных конференций по ML и AI, мы подались на трек для бенчмарков и датасетов (так как наша статья про бенчмарк и датасет) – и сегодня опубликовали вердикт, что нашу статью приняли со средней оценкой 4.75! (Приняли около 24% всех поданных статей). Конференция будет в Сан – Диего (для обладателей визы в Америку) и в Мехико (для необладателей визы). Основной текст статьи был написан методом марш-броска в течение двух недель нами с С...
На NeurIPS 2024 я познакомился с Lingming Zhang из Университета Иллинойса. Он тоже занимается LLM4Code и соавтор нескольких известных в нашей теме статей — например, EvalPlus и agentless. Из свежего — Code World Model от FAIR. Недавно он позвал меня выступить в их университете и рассказать о нашей работе и пообсуждать кодовых агентов. Я люблю выступать, но не люблю собирать слайды: раньше открывал Google Slides, делал минималистичный дизайн — и всё равно уходила куча времени. В этот раз решил ав...
Как попробовать Claude Opus 4.5 и другие модели в CLI-агенте бесплатно За последние полтора года из первого ряда наблюдал как сильно выросли способности моделей в формате кодинг агентов. При этом кто-то еще не пробовал сделать проект просто агентами, без погружения в код, хотя желание есть. Не у всех есть enterprise-подписка на Codex, Claude или Cursor, либо лишние $100–200 в месяц. При этом $10 в том же Cursor выедаются довольно быстро, если запускать агента на задачах чуть сложнее пр...
Снова пост-солянка! 1. В Google Scholar мой профиль перешагнул отметку в 100 цитирований. Приятно! 2. В X (бывший Twitter) есть статья, которая набрала 170млн просмотров. Ждал, что её кто-то переведет, но в итоге сделал это сам для vc и Хабра Суммарно вышло 200тыс просмотров и много полярных комментов. Статья называется: «Как исправить всю свою жизнь за один день». 3. Писали статью на конфу. В этот раз основной связкой были VS Code + Codex для работы с LaTeX. В ChatGPT P...
Последние месяцы заметно вырос интерес к средам обучения с подкреплением (RL environments) и к сбору проверяемых задач. Вот например, заметка в TechCrunch про рост инетереса. Одна из проблем масштабирования таких задач — у каждого датасета и бенчмарка свой репозиторий с кодом оценки и свой формат. Чтобы запустить агента на любом бенчмарке, приходится разбираться в скриптах, вносить правки и писать адаптеры. У terminal-bench как раз есть единый удобный формат и готовые адаптеры для популярных наб...
На прошлой неделе по в x/twitter и сегодня на Hacker News разошлась история про то, что модели читерят на SWE-bench, подглядывая будущие изменения репозитория. Напомню суть задачи: есть докер контейнер в нем репозиторий на каком-то конкретном коммите и issue, который нужно решить модели (пофиксить баг). Причем в реальности этот issue уже был пофикшен в PR и именно тестами из этого PR мы проверяем, что модель пофиксила баг. Как устроен «чит»: В git команда git log по умолчанию показывает историю ...