Новости 19:00, 29 мая 2026
Поделиться

Anthropic выпустила Claude Opus 4.8 с рекордным результатом на SWE-bench Pro

Компания Anthropic представила новую версию флагманской языковой модели Claude Opus 4.8, которая показала результат 69,2% на бенчмарке SWE-bench Pro, опередив конкурентов, включая GPT-5.5 и Gemini 3.1 Pro. Обновление включает функцию «Dynamic Workflows» для параллельной работы суб-агентов.

Anthropic обновила свою флагманскую языковую модель Claude Opus до версии 4.8, которая продемонстрировала значительный прогресс в решении сложных инженерных задач. По данным компании, модель набрала 69,2% на бенчмарке SWE-bench Pro — на 10 процентных пунктов выше, чем у ближайшего конкурента, GPT-5.5 от OpenAI. На платформе FrontierSWE и в рейтинге Artificial Analysis Intelligence (AAI) модель также заняла первое место.

Ключевое нововведение в Opus 4.8 — функция «Dynamic Workflows», доступная в исследовательском режиме. Она позволяет модели планировать выполнение крупных задач в среде Claude Code, запуская сотни параллельных суб-агентов в рамках одной сессии. После завершения работы агенты самостоятельно верифицируют результаты перед передачей их пользователю. Как отметил разработчик Алекс Чжан (Alex Zhang), этот подход подтверждает эффективность программного вызова суб-агентов по сравнению с традиционным форматом инструментальных вызовов (tool-calling).

В системной карте модели, опубликованной Anthropic, также упоминается планы по выпуску нового класса моделей с уровнем интеллекта выше, чем у Opus. По словам аналитика Эндрю Каррана (Andrew Curran), следующая версия — Claude Mythos — может появиться уже в середине июня 2026 года. Эксперты предполагают, что Mythos сможет решить большинство задач из категории HLE (Hardware-Level Engineering), которые ранее считались недоступными для языковых моделей.

При этом Opus 4.8 сохраняет паритет с GPT-5.5 по соотношению стоимости и производительности, хотя уступает конкуренту по скорости генерации токенов. В компании не уточнили, включены ли результаты GPT-5.5 в текущие бенчмарки FrontierSWE.

Источники: X-посты Эндрю Каррана (Andrew Curran), Лисана аль-Гайба (Lisan al Gaib), Алекса Чжана (Alex Zhang), Ючена Цзиня (Yuchen Jin), 28 мая 2026; системная карта Claude Opus 4.8.