489просмотров
17 января 2026 г.
statsScore: 538
Правильный ответ: GPT-5.2 (отсюда) Но что это они такое делают, что агенты аж неделю работали? И как это вообще возможно? Ведь современные агенты отлично справляются с узкими задачами, но работают не так хорошо в масштабных проектах. Логичный следующий шаг — запуск множества агентов параллельно, однако организовать их координацию непросто. Перепробовав разные варианты, команда решила сделать конвейер с четким разделением ответственности:
— Планировщики непрерывно анализируют кодовую базу и формируют задачи. Они могут запускать суб-планировщиков для отдельных областей, делая процесс планирования параллельным и рекурсивным.
— Исполнители берут задачи и полностью сосредотачиваются на их решении. Они не координируют действия с другими исполнителями и не думают об общей картине. Они просто упорно работают над своей задачей до завершения, а затем отправляют изменения. В конце каждого цикла агент-судья решает, стоит ли продолжать работу, после чего следующая итерация начинается с чистого листа. Изначально ещё была роль интегратора для контроля качества и разрешения конфликтов, но выяснилось, что это создает больше проблем, чем решает. Исполнители оказались способны самостоятельно справляться с конфликтами. Для проверки системы в Cursor ей поставили амбициозную цель: написать веб-браузер с нуля. Агенты работали почти неделю, написав более миллиона строк кода в тысяче файлов. Создание браузера с нуля — чрезвычайно сложная задача. Движок рендеринга написан с нуля на Rust и включает парсинг HTML, каскад стилей, компоновку элементов, формирование текста, отрисовку и собственную виртуальную JS-машину. Еще одним экспериментом стала прямая миграция кодовой базы Cursor с Solid на React (с одной популярной технологии на другую). Это заняло более трех недель и потребовало добавления 266 тыс. строк кода и удаления 193 тыс. Начав тестирование изменений, в компани пришли к выводу... что эти правки вполне реально внедрить в код. Третий эксперимент касался улучшения готовящегося к выпуску продукта. Агент, работавший длительное время, ускорил рендеринг видео в 25 раз, создав эффективную версию на Rust. Он также добавил плавный зум и панорамирование с естественной анимацией и размытием в движении, следующими за курсором. Этот код уже принят и скоро появится в продакшене. Но почему GPT-5.2? Это выяснили опытным путём — оказалось, что она гораздо лучше справляются с долговременной автономной работой: следует инструкциям, сохраняет фокус, избегает отклонений от темы и реализует функционал точно и в полном объеме. Opus 4.5 склонна останавливаться раньше времени и «срезать углы», когда это удобно, слишком быстро возвращая управление человеку. Также обнаружили, что разные модели хороши в разных ролях. GPT-5.2 справляется с планированием лучше, чем GPT-5.1-codex, несмотря на то, что последняя обучалась специально для написания кода. Такие эксперименты сейчас проводят в Cursor для того, чтобы разработать методики и принципы, которые в будущем лягут в основу агентских возможностей будущих фичей и релизов. Но для нас это хорошее напоминание, что мы зачастую видим оценку навыков моделей снизу. Даже если они перестанут развиваться и улучшаться — можно придумать более грамотную систему вокруг них, которая существенно усилит навыки и возможности. История Cursor тут отличая иллюстрация. К сожеланию, никаких деталей относительно формы запроса (длины / детальности промпта, метода описания фичей, были ли картинки, итд) нет. === Лицо человека, у которого агент 100 строк кода написать не может, представили?