Модель Claude Opus 4.8 от Anthropic показала результат 58% в бенчмарке DeepSWE, уступив GPT-5.5, но сократив среднюю стоимость выполнения задач до $12,58. Данные приводятся в аналитическом посте исследователя Омара Сароура (Omar Sarour).
Новая версия модели Claude Opus 4.8, разработанная Anthropic, продемонстрировала прогресс в соотношении цены и производительности. По данным бенчмарка DeepSWE, модель набрала 58% — на 12 процентных пунктов меньше, чем GPT-5.5 от OpenAI. При этом средняя стоимость выполнения задачи снизилась до $12,58, что может стать конкурентным преимуществом для корпоративных клиентов.
Омар Сароур, исследователь и автор поста, отметил, что Claude Opus 4.8 приближается к «фронтиру эффективности» — балансу между качеством и затратами. В комментарии к аналитике Epoch AI он также предположил, что открытые модели могут сократить отставание от проприетарных решений в ближайшие месяцы. По данным Epoch AI, на начало 2026 года разрыв между открытыми и закрытыми моделями составлял около четырёх месяцев.
Результаты бенчмарка DeepSWE, специализирующегося на оценке производительности моделей в задачах программной инженерии, стали одним из ключевых показателей для сравнения крупных языковых моделей. Anthropic не комментировала данные напрямую, но в недавнем блоге компании подчёркивалось внимание к оптимизации затрат на инференс.
Вопрос о том, как будут развиваться открытые модели, остаётся открытым. Epoch AI в своём анализе указывает, что темпы их улучшения могут ускориться, если разработчики сосредоточатся на узких задачах, а не на универсальности.
Источники: X-пост Омара Сароура, 30 мая 2026; аналитика Epoch AI, 29 мая 2026.