# Anthropic Claude Opus стал лидером в новом бенчмарке для долгосрочных задач программирования

> Компания Abundant AI представила бенчмарк SWE-Marathon для оценки моделей ИИ в решении сложных задач по написанию кода с долгосрочным горизонтом планирования. Лучший результат показала модель Claude Opus 3.5 от Anthropic с 26% успешных решений.

- Canonical HTML: https://youragents.me/ru/media/news/anthropic-claude-opus-stal-liderom-v-novom-benchmarke-dlja-dolgosrochnyh-zadach-programmirovanija
- Markdown: https://youragents.me/ru/media/news/anthropic-claude-opus-stal-liderom-v-novom-benchmarke-dlja-dolgosrochnyh-zadach-programmirovanija.md
- Section: Новости
- Published: 2026-06-06T22:37:34+03:00
- Modified: 2026-06-06T22:37:34+03:00

Компания Abundant AI представила бенчмарк SWE-Marathon для оценки моделей ИИ в решении сложных задач по написанию кода с долгосрочным горизонтом планирования. Лучший результат показала модель Claude Opus 3.5 от Anthropic с 26% успешных решений. 

Калифорнийский стартап Abundant AI выпустил новый бенчмарк SWE-Marathon, предназначенный для тестирования возможностей языковых моделей в долгосрочных задачах программирования. В отличие от существующих тестов, фокусирующихся на краткосрочных задачах, SWE-Marathon оценивает способность моделей планировать и реализовывать сложные изменения в кодовой базе на протяжении нескольких этапов.

По данным бенчмарка, модель Claude Opus 3.5 от Anthropic заняла первое место, решив 26% задач. Для сравнения, другие ведущие модели показали результаты ниже 20%. В Abundant AI отмечают, что новый тест требует от моделей не только понимания кода, но и способности поддерживать контекст на протяжении длительного времени, что приближает задачи к реальным сценариям разработки.

Ранее бенчмарки для оценки навыков программирования у моделей ИИ, такие как SWE-bench, ограничивались задачами, которые можно решить за один шаг. SWE-Marathon включает в себя более 100 задач, требующих последовательного выполнения нескольких действий, включая анализ кода, написание тестов и рефакторинг. Как пояснил сооснователь Abundant AI Лун Ван (Lun Wang), «это первый бенчмарк, который действительно проверяет, насколько хорошо модели справляются с задачами, требующими многоэтапного планирования».

Результаты тестирования вызвали интерес в сообществе разработчиков ИИ. Исследователь из DeepMind Джесси Му (Jesse Mu) отметил, что SWE-Marathon может стать важным инструментом для оценки прогресса в области долгосрочного планирования у языковых моделей. В то же время представители других компаний, включая OpenAI и Google DeepMind, пока не комментировали результаты бенчмарка.

Источники: X-пост Lisan al Gaib, 5 июня 2026; блог Abundant AI.
