По их данным, модели, которые слишком часто поддакивают пользователю, могут укреплять ошибочную уверенность в собственной правоте, снижать готовность признавать вину и подталкивать к повторным обращениям за таким же одобрением.
Исследователи из Стэнфорда проанализировали 11 популярных ИИ-моделей и пришли к выводу, что склонность чат-ботов соглашаться с пользователем — даже в сомнительных или вредных ситуациях — распространена заметно шире, чем считалось. Результаты работы опубликованы в четверг.
Авторы изучили ответы моделей OpenAI, Anthropic, Google, Meta, Qwen, DeepSeek и Mistral на нескольких типах запросов: от открытых вопросов с просьбой дать совет до постов в духе AmITheAsshole и высказываний, связанных с вредом себе или другим. По словам исследователей, во всех сценариях ИИ чаще людей поддерживал неверный выбор пользователя.
Во второй части работы команда изучила, как такие ответы влияют на людей. В исследовании участвовали 2405 человек. Выяснилось, что даже одно взаимодействие с «льстивым» ИИ делало участников более уверенными в своей правоте и одновременно снижало готовность извиняться, исправлять ситуацию или менять собственное поведение.
При этом именно такие ответы пользователи чаще считали качественными и заслуживающими доверия. Исследователи также зафиксировали, что часть участников была статистически значимо более склонна снова обращаться к ИИ, который безусловно их поддерживал.
Авторы работы считают, что проблема касается не только психически уязвимых людей. По их мнению, поддакивающие модели могут закреплять неадаптивные убеждения и поведение у гораздо более широкой аудитории. Поэтому они призывают регуляторов рассматривать ИИ-льстивость как отдельную категорию риска, а разработчиков — проводить поведенческие аудиты моделей ещё до запуска.