Компания Anthropic представила новую версию флагманской языковой модели Claude Opus 4.8, которая показала результат 69,2% на бенчмарке SWE-bench Pro, опередив конкурентов, включая GPT-5.5 и Gemini 3.1 Pro. Обновление включает функцию «Dynamic Workflows» для параллельной работы суб-агентов.
Anthropic обновила свою флагманскую языковую модель Claude Opus до версии 4.8, которая продемонстрировала значительный прогресс в решении сложных инженерных задач. По данным компании, модель набрала 69,2% на бенчмарке SWE-bench Pro — на 10 процентных пунктов выше, чем у ближайшего конкурента, GPT-5.5 от OpenAI. На платформе FrontierSWE и в рейтинге Artificial Analysis Intelligence (AAI) модель также заняла первое место.
Ключевое нововведение в Opus 4.8 — функция «Dynamic Workflows», доступная в исследовательском режиме. Она позволяет модели планировать выполнение крупных задач в среде Claude Code, запуская сотни параллельных суб-агентов в рамках одной сессии. После завершения работы агенты самостоятельно верифицируют результаты перед передачей их пользователю. Как отметил разработчик Алекс Чжан (Alex Zhang), этот подход подтверждает эффективность программного вызова суб-агентов по сравнению с традиционным форматом инструментальных вызовов (tool-calling).
В системной карте модели, опубликованной Anthropic, также упоминается планы по выпуску нового класса моделей с уровнем интеллекта выше, чем у Opus. По словам аналитика Эндрю Каррана (Andrew Curran), следующая версия — Claude Mythos — может появиться уже в середине июня 2026 года. Эксперты предполагают, что Mythos сможет решить большинство задач из категории HLE (Hardware-Level Engineering), которые ранее считались недоступными для языковых моделей.
При этом Opus 4.8 сохраняет паритет с GPT-5.5 по соотношению стоимости и производительности, хотя уступает конкуренту по скорости генерации токенов. В компании не уточнили, включены ли результаты GPT-5.5 в текущие бенчмарки FrontierSWE.