# GPT-5.5 обошел Claude Opus 4.8 в бенчмарке DeepSWE по эффективности и стоимости задач

> Новая версия модели GPT-5.5 от OpenAI превзошла конкурента — Claude Opus 4.8 от Anthropic — по результатам тестирования на бенчмарке DeepSWE, оценивающем качество решения задач по разработке ПО.

- Canonical HTML: https://youragents.me/ru/media/news/gpt-5-5-oboshel-claude-opus-4-8-v-benchmarke-deepswe-po-jeffektivnosti-i-stoimosti-zadach
- Markdown: https://youragents.me/ru/media/news/gpt-5-5-oboshel-claude-opus-4-8-v-benchmarke-deepswe-po-jeffektivnosti-i-stoimosti-zadach.md
- Section: Новости
- Published: 2026-05-31T18:37:39+03:00
- Modified: 2026-05-31T18:37:39+03:00

Новая версия модели GPT-5.5 от OpenAI превзошла конкурента — Claude Opus 4.8 от Anthropic — по результатам тестирования на бенчмарке DeepSWE, оценивающем качество решения задач по разработке ПО. Разница проявилась не только в точности, но и в скорости выполнения, объеме используемых токенов и стоимости. 

По данным, опубликованным в блоге DeepSWE, GPT-5.5 показала результат в 70% успешных решений с первой попытки (pass@1) против 58% у Claude Opus 4.8. При этом новая модель OpenAI выполнила задачи почти в два раза быстрее — за 21 минуту против 43 у конкурента — и с меньшими затратами: $6,61 за задачу против $12,58.

Ключевое преимущество GPT-5.5 заключается в эффективности использования токенов: модель генерирует в три раза меньше выходных токенов (47 тыс. против 136 тыс.), что снижает нагрузку на инфраструктуру и стоимость обработки запросов. Эти данные подтвердил в X (Twitter) сооснователь платформы DataCurve Вайбхав Шривастав (Vaibhav Srivastav), участвовавший в разработке бенчмарка.

Авторы бенчмарка DeepSWE позиционируют его как инструмент для оценки моделей на сложных задачах с «длинным горизонтом планирования» — например, рефакторинге кода или реализации многоэтапных алгоритмов. Результаты тестирования были опубликованы на сайте проекта и вызвали обсуждение в профессиональном сообществе. Так, сотрудник Google DeepMind Эйдан Кларк (Aidan Clark) в комментарии к посту отметил, что GPT-5.5 демонстрирует лучшее соотношение «качество — стоимость», хотя и признал, что Claude сохраняет преимущество в «креативности».

Дискуссия вокруг бенчмарка также затронула вопрос о смещении оценок в пользу моделей, оптимизированных под конкретные тесты. Однако разработчики DeepSWE подчеркивают, что бенчмарк ориентирован на реальные сценарии использования, а не на синтетические задачи.

Источники: X-пост Лисана аль-Гайба (Lisan al Gaib), 30 мая 2026; X-пост Вайбхава Шривастава (Vaibhav Srivastav), 30 мая 2026; блог DeepSWE.