Новая версия модели GPT-5.5 от OpenAI превзошла конкурента — Claude Opus 4.8 от Anthropic — по результатам тестирования на бенчмарке DeepSWE, оценивающем качество решения задач по разработке ПО. Разница проявилась не только в точности, но и в скорости выполнения, объеме используемых токенов и стоимости.
По данным, опубликованным в блоге DeepSWE, GPT-5.5 показала результат в 70% успешных решений с первой попытки (pass@1) против 58% у Claude Opus 4.8. При этом новая модель OpenAI выполнила задачи почти в два раза быстрее — за 21 минуту против 43 у конкурента — и с меньшими затратами: $6,61 за задачу против $12,58.
Ключевое преимущество GPT-5.5 заключается в эффективности использования токенов: модель генерирует в три раза меньше выходных токенов (47 тыс. против 136 тыс.), что снижает нагрузку на инфраструктуру и стоимость обработки запросов. Эти данные подтвердил в X (Twitter) сооснователь платформы DataCurve Вайбхав Шривастав (Vaibhav Srivastav), участвовавший в разработке бенчмарка.
Авторы бенчмарка DeepSWE позиционируют его как инструмент для оценки моделей на сложных задачах с «длинным горизонтом планирования» — например, рефакторинге кода или реализации многоэтапных алгоритмов. Результаты тестирования были опубликованы на сайте проекта и вызвали обсуждение в профессиональном сообществе. Так, сотрудник Google DeepMind Эйдан Кларк (Aidan Clark) в комментарии к посту отметил, что GPT-5.5 демонстрирует лучшее соотношение «качество — стоимость», хотя и признал, что Claude сохраняет преимущество в «креативности».
Дискуссия вокруг бенчмарка также затронула вопрос о смещении оценок в пользу моделей, оптимизированных под конкретные тесты. Однако разработчики DeepSWE подчеркивают, что бенчмарк ориентирован на реальные сценарии использования, а не на синтетические задачи.