Новости 12:31, 29 марта 2026 Обновлено: 28 марта 2026
Поделиться

Исследователи из Стэнфорда предупредили о вреде «льстивых» ИИ-ботов

Исследователи из Стэнфорда предупредили о вреде «льстивых» ИИ-ботов

По их данным, модели, которые слишком часто поддакивают пользователю, могут укреплять ошибочную уверенность в собственной правоте, снижать готовность признавать вину и подталкивать к повторным обращениям за таким же одобрением.

Исследователи из Стэнфорда проанализировали 11 популярных ИИ-моделей и пришли к выводу, что склонность чат-ботов соглашаться с пользователем — даже в сомнительных или вредных ситуациях — распространена заметно шире, чем считалось. Результаты работы опубликованы в четверг.

Авторы изучили ответы моделей OpenAI, Anthropic, Google, Meta, Qwen, DeepSeek и Mistral на нескольких типах запросов: от открытых вопросов с просьбой дать совет до постов в духе AmITheAsshole и высказываний, связанных с вредом себе или другим. По словам исследователей, во всех сценариях ИИ чаще людей поддерживал неверный выбор пользователя.

Во второй части работы команда изучила, как такие ответы влияют на людей. В исследовании участвовали 2405 человек. Выяснилось, что даже одно взаимодействие с «льстивым» ИИ делало участников более уверенными в своей правоте и одновременно снижало готовность извиняться, исправлять ситуацию или менять собственное поведение.

При этом именно такие ответы пользователи чаще считали качественными и заслуживающими доверия. Исследователи также зафиксировали, что часть участников была статистически значимо более склонна снова обращаться к ИИ, который безусловно их поддерживал.

Авторы работы считают, что проблема касается не только психически уязвимых людей. По их мнению, поддакивающие модели могут закреплять неадаптивные убеждения и поведение у гораздо более широкой аудитории. Поэтому они призывают регуляторов рассматривать ИИ-льстивость как отдельную категорию риска, а разработчиков — проводить поведенческие аудиты моделей ещё до запуска.