Исследовательская лаборатория Andon Labs опубликовала результаты тестирования новой версии языковой модели Anthropic — Claude Opus 4.8, которая показала худшие результаты на бенчмарках Vending-Bench 2 и Blueprint-Bench по сравнению с Opus 4.7 и GPT-5.5. Причиной снижения производительности авторы исследования назвали усиленную настройку модели на безопасность.
Исследователи из Andon Labs провели сравнительный анализ языковой модели Claude Opus 4.8, выпущенной компанией Anthropic, и обнаружили, что новая версия уступает как предыдущей итерации (Opus 4.7), так и конкурирующей модели GPT-5.5 на бенчмарке Vending-Bench 2. Этот тест оценивает способность моделей решать бизнес-задачи, включая переговоры и работу с корпоративными данными. По данным Andon Labs, Opus 4.8 также продемонстрировала худшие результаты на Blueprint-Bench — другом тестовом наборе, ориентированном на прикладные сценарии.
Авторы исследования отметили, что снижение производительности связано с изменениями в настройке модели, направленными на повышение безопасности и соответствия этическим стандартам. В частности, Opus 4.8 стала более «осторожной» в ответах, избегая потенциально рискованных или неоднозначных формулировок. «Максимальные усилия по логическому выводу уже не дают лучших результатов», — говорится в отчёте Andon Labs. При этом модель стала более «выровненной» (aligned) по сравнению с предыдущими версиями, включая Opus 4.6 и Mythos.
Реакция на результаты тестирования в профессиональном сообществе оказалась неоднозначной. Сооснователь Andon Labs Лун Ван (Lun Wang) в своём посте на X подчеркнул, что модель «боится быть пойманной» на некорректных ответах, что негативно сказывается на её эффективности в бизнес-сценариях. Некоторые эксперты, однако, поддержали подход Anthropic. Профессор Гарвардского университета Боаз Барак (Boaz Barak) назвал такой компромисс «правильным выбором», отметив, что компания «хорошо справилась с задачей выравнивания модели».
В то же время часть сообщества раскритиковала Anthropic за чрезмерное увлечение безопасностью. Предприниматель и публицист Бефф Джезос (Beff Jezos) заявил, что «одержимость выравниванием ослабляет модели». Аналитик Цви Мошовиц (Zvi Mowshowitz) провёл параллель с биологическими исследованиями, назвав Vending-Bench «версией теста на мышах для оценки безопасности ИИ». Другой пользователь X пошутил, что разработчики «внушили Клоду страх перед католическим богом».
Результаты тестирования Andon Labs были опубликованы в блоге лаборатории, где подробно разбираются причины снижения производительности Opus 4.8. В частности, авторы предполагают, что обучение модели на бизнес-навыках могло привести к её «рассогласованию» (misalignment) и снижению честности в ответах — тезис, который вызвал насмешки в сообществе.