commit history

@c0mmit💻 Технологии🇷🇺 Русский📅 март 2026 г.

история моих коммитов про машинное обучение, карьеру и набитые шишки @ibragim_bad

📊 Полная статистика 📝 Все посты

##036#092#106

4.1K

Подписчики

7.4K

Ср. охват

179.9%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

17 из 17

c0mmit

3 мар., 11:46

Последние пару месяцев я плотно работал над этим релизом, и наконец-то мы выкатываем его в опенсорс! 📟 Встречайте SWE-rebench-V2: самый большой открытый, мультиязычный датасет для обучения кодовых агентов! Вместе с командой Nebius AI R&D мы построили пайплайн для масштабного сбора задач из реальных GitHub репозиториев и теперь делимся всем с комьюнити. На текущий момент это самый большой и разнообразный открытый датасет подобных задач в мире. Что внутри: > 32 000+ задач — на базе реал...

👁 42.7K📷 photo

📊 Аналитика

c0mmit

23 дек., 12:24

🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта. > Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях. > Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете. > Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов. > RFT на этих данных, SWE-bench Verified: Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1. Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1. Также сильный р...

👁 15.6K

📊 Аналитика

c0mmit

26 февр., 12:51

Мы тут в Nebius AI R&D выкатили новый тул для всех, кто работает с кодовыми агентами – ConTree 🌳 https://contree.dev/ Пока в альфа релизе, будем рады фидбеку и вопросам! Начинаем раскатывать понемногу перед большим релизом, чтобы собрать фидбек и шлифануть все. Мы давно работаем с агентами, и одна из ключевых сильных сторон нашей команды – это умение пилить инфру. С агентами всегда стоит вопрос: где им безопасно и быстро выполнять код? В докере есть ограничения, а обычные виртуалки — слишк...

👁 13.3K📷 photo

📊 Аналитика

c0mmit

5 янв., 12:40

Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект! Авторы: @southfreebird, @Olegbalakhnov и @zaringleb. Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз меньше (0.5B vs 3B в оригинальной работе), которая показывает success rate 94.1% на Libero benchmark (против 94.7% у оригинальной модели). VLA (Vision-Language-Action) это модель, которая смотрит на картинку, понимает текстовую команду и сразу выд...

👁 12.0K🎬 video

📊 Аналитика

c0mmit

18 сент., 19:49

SWE-rebench приняли на NeurIPS 2025🔥 NeurIPS – одна из самых престижных конференций по ML и AI, мы подались на трек для бенчмарков и датасетов (так как наша статья про бенчмарк и датасет) – и сегодня опубликовали вердикт, что нашу статью приняли со средней оценкой 4.75! (Приняли около 24% всех поданных статей). Конференция будет в Сан – Диего (для обладателей визы в Америку) и в Мехико (для необладателей визы). Основной текст статьи был написан методом марш-броска в течение двух недель нами с С...

👁 4.4K📷 photo

📊 Аналитика

c0mmit

14 окт., 17:50

На NeurIPS 2024 я познакомился с Lingming Zhang из Университета Иллинойса. Он тоже занимается LLM4Code и соавтор нескольких известных в нашей теме статей — например, EvalPlus и agentless. Из свежего — Code World Model от FAIR. Недавно он позвал меня выступить в их университете и рассказать о нашей работе и пообсуждать кодовых агентов. Я люблю выступать, но не люблю собирать слайды: раньше открывал Google Slides, делал минималистичный дизайн — и всё равно уходила куча времени. В этот раз решил ав...

👁 3.9K📷 photo

📊 Аналитика

c0mmit

20 янв., 15:29

Как попробовать Claude Opus 4.5 и другие модели в CLI-агенте бесплатно За последние полтора года из первого ряда наблюдал как сильно выросли способности моделей в формате кодинг агентов. При этом кто-то еще не пробовал сделать проект просто агентами, без погружения в код, хотя желание есть. Не у всех есть enterprise-подписка на Codex, Claude или Cursor, либо лишние $100–200 в месяц. При этом $10 в том же Cursor выедаются довольно быстро, если запускать агента на задачах чуть сложнее пр...

👁 3.8K

📊 Аналитика

c0mmit

4 февр., 13:56

Снова пост-солянка! 1. В Google Scholar мой профиль перешагнул отметку в 100 цитирований. Приятно! 2. В X (бывший Twitter) есть статья, которая набрала 170млн просмотров. Ждал, что её кто-то переведет, но в итоге сделал это сам для vc и Хабра Суммарно вышло 200тыс просмотров и много полярных комментов. Статья называется: «Как исправить всю свою жизнь за один день». 3. Писали статью на конфу. В этот раз основной связкой были VS Code + Codex для работы с LaTeX. В ChatGPT P...

👁 3.6K📷 photo

📊 Аналитика

c0mmit

27 окт., 16:34

Последние месяцы заметно вырос интерес к средам обучения с подкреплением (RL environments) и к сбору проверяемых задач. Вот например, заметка в TechCrunch про рост инетереса. Одна из проблем масштабирования таких задач — у каждого датасета и бенчмарка свой репозиторий с кодом оценки и свой формат. Чтобы запустить агента на любом бенчмарке, приходится разбираться в скриптах, вносить правки и писать адаптеры. У terminal-bench как раз есть единый удобный формат и готовые адаптеры для популярных наб...

👁 3.5K

📊 Аналитика

c0mmit

12 сент., 15:04

На прошлой неделе по в x/twitter и сегодня на Hacker News разошлась история про то, что модели читерят на SWE-bench, подглядывая будущие изменения репозитория. Напомню суть задачи: есть докер контейнер в нем репозиторий на каком-то конкретном коммите и issue, который нужно решить модели (пофиксить баг). Причем в реальности этот issue уже был пофикшен в PR и именно тестами из этого PR мы проверяем, что модель пофиксила баг. Как устроен «чит»: В git команда git log по умолчанию показывает историю ...

👁 3.5K📷 photo

📊 Аналитика

Типы хуков

Нейтральный14 | 7.3K просм.

Статистика3 | 7.8K просм.

Длина постов

Очень длинные (1000+)11 | 8.8K просм.

Длинные (500-1000)5 | 5.1K просм.

Средние (200-500)1 | 3.2K просм.

Влияние эмодзи

3.2K

С эмодзи (1)

7.7K

Без эмодзи (16)

-57.7% охвата

Типы контента

🎬

video

12.0K просм.

📷

photo

8.4K просм.

📝

text

5.0K просм.

⚠️ 0/100

Подозрительно высокий охват

#2227

из 13,215 в Технологии