Новости 02:40, 28 мая 2026
Поделиться

Компания Datacurve представила бенчмарк DeepSWE для оценки ИИ-агентов в разработке ПО

Стартап Datacurve, основанный бывшими сотрудниками ведущих лабораторий ИИ, выпустил бенчмарк DeepSWE — новый стандарт для оценки производительности моделей в задачах долгосрочной программной инженерии. Инструмент призван выявить реальные различия между топовыми моделями, которые не фиксируют существующие тесты.

Команда Datacurve, возглавляемая Сереной Ге (Serena Ge), выпустила бенчмарк DeepSWE (Deep Software Engineering), предназначенный для оценки ИИ-агентов в сложных задачах разработки. В отличие от традиционных тестов, которые часто основаны на публичных GitHub-задачах и не отражают реальную работу программистов, DeepSWE предлагает оригинальные задания, требующие анализа репозитория, редактирования нескольких файлов и сохранения работоспособности кода.

По данным бенчмарка, топовые модели демонстрируют значительные различия в производительности. Так, GPT-5.5 достигает 70% успешных решений, в то время как GPT-5.4 и Claude Opus 4.7 — 56% и 54% соответственно. При этом решения в DeepSWE требуют в 5,5 раза больше кода и в два раза больше токенов на выходе, чем в предыдущих тестах, таких как SWE-bench Pro. «DeepSWE показывает, где модели действительно расходятся, отражая повседневный опыт разработчиков», — заявил Тед Сандерс (Ted Sanders), соавтор проекта.

Особое внимание в сообществе привлекли результаты сравнения агентов. Миниатюрный агент mini-swe-agent, чей базовый класс состоит всего из 150 строк кода, превзошел по производительности такие решения, как Claude Code и Codex. Это подтвердило тезис о том, что более простые системы лучше обобщают задачи. «Мини-агент работает не хуже, чем Claude Code, Codex и Gemini CLI», — отметил Офир Пресс (Ofir Press), один из разработчиков mini-swe-agent.

В то же время бенчмарк вызвал критику в адрес «официальных» подходов к оценке моделей. Тео (Theo Browne), основатель платформы T3, указал на значительный разрыв между результатами в стандартных и упрощенных тестовых средах: «Это многое говорит о том, как работают лаборатории». Особенно низкие результаты показал Gemini 3.5 Flash, который, по словам Тео, оказался «в два раза дороже GPT-5.5 при половине производительности».

Эксперты также отметили, что DeepSWE может быстро устареть: по словам аналитика Лисана аль-Гайба (Lisan al Gaib), новые бенчмарки должны создаваться так, чтобы передовые модели показывали менее 10% успешных решений, иначе тесты теряют актуальность в течение полугода.

Источники: X-посты Серены Ге (Serena Ge), Теда Сандерса (Ted Sanders), Тео (Theo Browne), Офира Пресса (Ofir Press), Лисана аль-Гайба (Lisan al Gaib), 26–27 мая 2026 года; блог Datacurve.