Компания Anthropic представила обновлённую версию флагманской языковой модели Claude Opus 4.8, которая показала результат 69,2% на бенчмарке SWE-Bench Pro, опередив конкурирующую модель GPT-5.5 на 10 процентных пунктов.
Anthropic обновила свою флагманскую языковую модель Claude Opus до версии 4.8. По данным компании, новая модель набрала 69,2% на бенчмарке SWE-Bench Pro, который оценивает способность ИИ-систем решать реальные задачи по программированию и отладке кода. Предыдущий лидер, GPT-5.5 от OpenAI, отстаёт на 10 процентных пунктов.
Результат Claude Opus 4.8 стал новым рекордом для публично доступных моделей. SWE-Bench Pro включает задачи по исправлению ошибок в реальных репозиториях с открытым исходным кодом, что требует от моделей не только понимания кода, но и способности работать с большими контекстами и внешними инструментами. Anthropic не раскрыла технические детали улучшений, но отметила, что модель стала эффективнее в обработке сложных запросов и генерации структурированных ответов.
Выход новой версии Claude Opus совпадает с усилением конкуренции на рынке передовых языковых моделей. Ранее OpenAI и Google DeepMind также анонсировали обновления своих флагманских моделей, однако результаты на SWE-Bench Pro пока не превышали 60%. Anthropic традиционно позиционирует свои модели как более безопасные и управляемые, что может стать дополнительным преимуществом для корпоративных клиентов.
Пользователи уже получили доступ к Claude Opus 4.8 через API и веб-интерфейс. Компания также опубликовала отчёт о тестировании модели, включая примеры успешных решений задач из бенчмарка.
Источники: пресс-релиз Anthropic, май 2026 года.