Компания Anthropic представила обновлённую версию флагманской языковой модели Claude Opus 4.8, которая, по результатам независимых тестов, опередила конкурента — GPT-5.5 от OpenAI — в задачах для старших инженеров и профессиональных авторов. Об этом 28 мая сообщили разработчики и эксперты, проводившие оценку модели.
Anthropic выпустила новую версию своей флагманской языковой модели — Claude Opus 4.8. Как утверждают в компании, это самая производительная версия Opus на сегодняшний день, особенно в области программирования и работы с агентами. Модель уже доступна пользователям в общем доступе.
По данным тестирования, проведённого командой издания Every (сооснователь и генеральный директор — Дэн Шиппер (Dan Shipper)), Opus 4.8 показала результаты, превосходящие GPT-5.5 в нескольких ключевых областях. На сложном инженерном бенчмарке модель набрала 63 балла против 62 у конкурента, что на 30 пунктов выше предыдущей версии Opus 4.7. В ходе теста модель выполнила полный рефакторинг производственного кодовой базы, создав работоспособный продукт.
В писательских задачах — таких как написание эссе, рекламных писем и других текстовых материалов — Opus 4.8 набрала 79,6 балла, опередив GPT-5.5 на 6 пунктов. По словам Шиппера, новая версия реже использует характерные для ИИ-текстов штампы («AI-isms») и лучше адаптируется под стиль пользователя. Однако эффективность модели зависит от уровня рассуждений: лучшие результаты достигаются при высоком (high) или экстремально высоком (xhigh) уровне.
Модель также продемонстрировала высокую производительность в задачах, связанных с обработкой знаний: создании отчётов, исследованиях и генерации презентаций. В частности, Opus 4.8 создала лучшую одношаговую презентацию PowerPoint за всю историю тестирования команды Every. Кроме того, Шиппер отметил эмоциональный интеллект модели: она способна обсуждать межличностные и психологические вопросы, предлагая нестандартные решения и расширяя перспективу пользователя.
При этом эксперты подчёркивают, что эффективность модели во многом зависит от интерфейса («harness»). По словам Шиппера, платформа Codex по-прежнему превосходит настольное приложение Claude, что заставляет его чаще использовать связку Codex + GPT-5.5 в повседневной работе. Тем не менее, новая версия Opus заставила его активнее переключаться между инструментами.
Реакция сообщества на анонс оказалась смешанной. Некоторые пользователи, в том числе анонимный автор под ником Teortaxes, назвали выход модели «сокрушительным» для конкурентов, предположив, что подписчики Anthropic, ранее отказавшиеся от услуг, могут вернуться. Другие, как пользователь @iruletheworldmo, отметили, что их опыт использования модели не совпал с восторженными оценками команды Every, и пообещали провести собственное тестирование.