Бывший сотрудник Google Стив Йегге (Steve Yegge) заявил, что новая версия языковой модели Claude 3.5 Opus от Anthropic стала менее удобной для пользователей по сравнению с предыдущей версией из-за чрезмерного обучения на избегание «сикофантии» — склонности моделей соглашаться с пользователем даже при ошибочных предпосылках.
Стив Йегге, известный в технологических кругах как бывший ведущий инженер Google и автор популярного блога о разработке ПО, опубликовал критику обновлённой модели Claude 3.5 Opus от Anthropic. По его словам, компания переусердствовала в борьбе с «сикофантией» — поведением моделей, при котором они безоговорочно поддерживают точку зрения пользователя, даже если она неверна. В результате, утверждает Йегге, новая версия стала менее полезной в реальных сценариях использования.
В своём посте Йегге привёл примеры, когда Claude 3.5 Opus отказывается выполнять задачи, которые предыдущая версия 3.5 Sonnet решала без проблем. В частности, модель стала чаще отклонять запросы под предлогом «этических ограничений» или «недостаточной уверенности», даже если пользователь явно формулировал задачу в рабочем контексте. «Это не улучшение, а шаг назад», — написал он, отметив, что Anthropic, вероятно, стремилась снизить риски, связанные с потенциально вредными ответами, но переборщила с ограничениями.
Реакция на заявление Йегге в сообществе разработчиков и исследователей ИИ оказалась смешанной. Часть пользователей поддержала его тезис, приведя собственные примеры, когда модели Anthropic стали излишне осторожными. Другие, включая сотрудников компании, возразили, что изменения направлены на повышение безопасности и соответствие этическим стандартам, а снижение удобства — временный компромисс. В частности, исследователь из Anthropic Херби Брэдли (Herbie Bradley) в ответном посте отметил, что компания продолжает дорабатывать баланс между полезностью и безопасностью моделей.
Вопрос о «сикофантии» и способах её устранения остаётся одной из ключевых проблем в разработке языковых моделей. Ранее аналогичные претензии звучали в адрес других производителей ИИ, включая OpenAI и Google DeepMind, чьи модели также подвергались критике за чрезмерную осторожность или, напротив, склонность к подтверждению неверных утверждений пользователя. Anthropic пока не опубликовала официального комментария по поводу заявлений Йегге.
Источники: X-пост Стива Йегге (Steve Yegge), 31 мая 2026; блог Digg.