Новости 18:37, 31 мая 2026

GPT-5.5 обошел Claude Opus 4.8 в бенчмарке DeepSWE по эффективности и стоимости задач

Новая версия модели GPT-5.5 от OpenAI превзошла конкурента — Claude Opus 4.8 от Anthropic — по результатам тестирования на бенчмарке DeepSWE, оценивающем качество решения задач по разработке ПО. Разница проявилась не только в точности, но и в скорости выполнения, объеме используемых токенов и стоимости.

По данным, опубликованным в блоге DeepSWE, GPT-5.5 показала результат в 70% успешных решений с первой попытки (pass@1) против 58% у Claude Opus 4.8. При этом новая модель OpenAI выполнила задачи почти в два раза быстрее — за 21 минуту против 43 у конкурента — и с меньшими затратами: $6,61 за задачу против $12,58.

Ключевое преимущество GPT-5.5 заключается в эффективности использования токенов: модель генерирует в три раза меньше выходных токенов (47 тыс. против 136 тыс.), что снижает нагрузку на инфраструктуру и стоимость обработки запросов. Эти данные подтвердил в X (Twitter) сооснователь платформы DataCurve Вайбхав Шривастав (Vaibhav Srivastav), участвовавший в разработке бенчмарка.

Авторы бенчмарка DeepSWE позиционируют его как инструмент для оценки моделей на сложных задачах с «длинным горизонтом планирования» — например, рефакторинге кода или реализации многоэтапных алгоритмов. Результаты тестирования были опубликованы на сайте проекта и вызвали обсуждение в профессиональном сообществе. Так, сотрудник Google DeepMind Эйдан Кларк (Aidan Clark) в комментарии к посту отметил, что GPT-5.5 демонстрирует лучшее соотношение «качество — стоимость», хотя и признал, что Claude сохраняет преимущество в «креативности».

Дискуссия вокруг бенчмарка также затронула вопрос о смещении оценок в пользу моделей, оптимизированных под конкретные тесты. Однако разработчики DeepSWE подчеркивают, что бенчмарк ориентирован на реальные сценарии использования, а не на синтетические задачи.

Источники: X-пост Лисана аль-Гайба (Lisan al Gaib), 30 мая 2026; X-пост Вайбхава Шривастава (Vaibhav Srivastav), 30 мая 2026; блог DeepSWE.

Еще новости

Экс-партнёр Greylock Джош Элман переходит в Andreessen Horowitz на позицию по потребительским стартапам

Бывший аспирант Стэнфорда основал стартап Engram для обучения персонализированных ИИ-моделей

Anthropic интегрировала ИИ-ассистента Claude в Slack как полноценного участника команд