# Anthropic улучшила модель Opus 4.8 на 6% по бенчмарку DeepSWE, но отстаёт от GPT-5.4

> Компания Anthropic выпустила обновлённую версию модели искусственного интеллекта Opus 4.8, которая показала рост производительности на 6% по бенчмарку DeepSWE по сравнению с предыдущей версией. При этом модель остаётся позади OpenAI GPT-5.4.

- Canonical HTML: https://youragents.me/ru/media/news/anthropic-uluchshila-model-opus-4-8-na-6-po-benchmarku-deepswe-no-otstajot-ot-gpt-5-4
- Markdown: https://youragents.me/ru/media/news/anthropic-uluchshila-model-opus-4-8-na-6-po-benchmarku-deepswe-no-otstajot-ot-gpt-5-4.md
- Section: Новости
- Published: 2026-05-31T12:37:33+03:00
- Modified: 2026-05-31T12:37:33+03:00

Компания Anthropic выпустила обновлённую версию модели искусственного интеллекта Opus 4.8, которая показала рост производительности на 6% по бенчмарку DeepSWE по сравнению с предыдущей версией. При этом модель остаётся позади OpenAI GPT-5.4. 

Обновление модели Opus 4.8 от Anthropic продемонстрировало улучшение результатов на бенчмарке DeepSWE, предназначенном для оценки возможностей ИИ в решении сложных задач. По данным, опубликованным в X (бывший Twitter), новая версия показала прирост в 6% относительно Opus 4.7 при использовании режима высокой интенсивности мышления («high thinking effort»). При этом стоимость выполнения задач снизилась.

Автор блога Datacurve, проводивший тестирование, отметил, что улучшения коснулись не только точности, но и экономической эффективности модели. «Opus 4.8 на 6% превосходит Opus 4.7 в режиме высокой нагрузки, одновременно снижая среднюю стоимость задачи», — говорится в его сообщении. Эти данные подтверждаются реакцией разработчиков и исследователей, включая Тео Брауна (Theo Browne), основателя платформы t3.gg, который назвал результаты «ожидаемыми» и соответствующими его личному опыту работы с моделью.

Несмотря на прогресс, Opus 4.8 всё ещё уступает конкурирующей модели OpenAI GPT-5.4, о чём упоминается в заголовке обсуждения. Бенчмарк DeepSWE остаётся одним из ключевых инструментов для сравнения производительности крупных языковых моделей, особенно в задачах, требующих глубокого анализа и логического вывода.

Обновление вышло на фоне активной конкуренции между ведущими разработчиками ИИ, где каждый процент прироста производительности может влиять на рыночные позиции. Anthropic продолжает оптимизировать свои модели, стремясь сократить разрыв с лидерами отрасли.

Источники: X-пост Datacurve, 30 мая 2026; X-пост Тео Брауна (Theo Browne), 30 мая 2026; X-пост Chubby♨️, 31 мая 2026.