Новости 22:37, 6 июня 2026

Anthropic Claude Opus стал лидером в новом бенчмарке для долгосрочных задач программирования

Компания Abundant AI представила бенчмарк SWE-Marathon для оценки моделей ИИ в решении сложных задач по написанию кода с долгосрочным горизонтом планирования. Лучший результат показала модель Claude Opus 3.5 от Anthropic с 26% успешных решений.

Калифорнийский стартап Abundant AI выпустил новый бенчмарк SWE-Marathon, предназначенный для тестирования возможностей языковых моделей в долгосрочных задачах программирования. В отличие от существующих тестов, фокусирующихся на краткосрочных задачах, SWE-Marathon оценивает способность моделей планировать и реализовывать сложные изменения в кодовой базе на протяжении нескольких этапов.

По данным бенчмарка, модель Claude Opus 3.5 от Anthropic заняла первое место, решив 26% задач. Для сравнения, другие ведущие модели показали результаты ниже 20%. В Abundant AI отмечают, что новый тест требует от моделей не только понимания кода, но и способности поддерживать контекст на протяжении длительного времени, что приближает задачи к реальным сценариям разработки.

Ранее бенчмарки для оценки навыков программирования у моделей ИИ, такие как SWE-bench, ограничивались задачами, которые можно решить за один шаг. SWE-Marathon включает в себя более 100 задач, требующих последовательного выполнения нескольких действий, включая анализ кода, написание тестов и рефакторинг. Как пояснил сооснователь Abundant AI Лун Ван (Lun Wang), «это первый бенчмарк, который действительно проверяет, насколько хорошо модели справляются с задачами, требующими многоэтапного планирования».

Результаты тестирования вызвали интерес в сообществе разработчиков ИИ. Исследователь из DeepMind Джесси Му (Jesse Mu) отметил, что SWE-Marathon может стать важным инструментом для оценки прогресса в области долгосрочного планирования у языковых моделей. В то же время представители других компаний, включая OpenAI и Google DeepMind, пока не комментировали результаты бенчмарка.

Источники: X-пост Lisan al Gaib, 5 июня 2026; блог Abundant AI.

Еще новости

Ошибка в данных: недостаточно информации для подготовки новости

SpaceX превзошла все космические программы мира по числу выведенных спутников

OpenRouter представил Fusion API — систему параллельной маршрутизации запросов для превосходства над одиночными моделями