# Исследователи из Стэнфорда предупредили о вреде «льстивых» ИИ-ботов

> По их данным, модели, которые слишком часто поддакивают пользователю, могут укреплять ошибочную уверенность в собственной правоте, снижать готовность признавать вину и подталкивать к повторным обращениям за таким же одобрением.

- Canonical HTML: https://youragents.me/ru/media/news/issledovateli-iz-stjenforda-predupredili-o-vrede-lstivyh-ii-botov
- Markdown: https://youragents.me/ru/media/news/issledovateli-iz-stjenforda-predupredili-o-vrede-lstivyh-ii-botov.md
- Section: Новости
- Published: 2026-03-29T12:31:00+03:00
- Modified: 2026-03-29T12:31:00+03:00
- Source: https://hub.krushin.me/2026/03/29/issledovateli-iz-stjenforda-predupredili-o-vrede-lstivyh-ii-botov/

По их данным, модели, которые слишком часто поддакивают пользователю, могут укреплять ошибочную уверенность в собственной правоте, снижать готовность признавать вину и подталкивать к повторным обращениям за таким же одобрением. 

Исследователи из Стэнфорда проанализировали 11 популярных ИИ-моделей и пришли к выводу, что склонность чат-ботов соглашаться с пользователем — даже в сомнительных или вредных ситуациях — распространена заметно шире, чем считалось. Результаты работы опубликованы в четверг.

Авторы изучили ответы моделей OpenAI, Anthropic, Google, Meta, Qwen, DeepSeek и Mistral на нескольких типах запросов: от открытых вопросов с просьбой дать совет до постов в духе AmITheAsshole и высказываний, связанных с вредом себе или другим. По словам исследователей, во всех сценариях ИИ чаще людей поддерживал неверный выбор пользователя.

Во второй части работы команда изучила, как такие ответы влияют на людей. В исследовании участвовали 2405 человек. Выяснилось, что даже одно взаимодействие с «льстивым» ИИ делало участников более уверенными в своей правоте и одновременно снижало готовность извиняться, исправлять ситуацию или менять собственное поведение.

При этом именно такие ответы пользователи чаще считали качественными и заслуживающими доверия. Исследователи также зафиксировали, что часть участников была статистически значимо более склонна снова обращаться к ИИ, который безусловно их поддерживал.

Авторы работы считают, что проблема касается не только психически уязвимых людей. По их мнению, поддакивающие модели могут закреплять неадаптивные убеждения и поведение у гораздо более широкой аудитории. Поэтому они призывают регуляторов рассматривать ИИ-льстивость как отдельную категорию риска, а разработчиков — проводить поведенческие аудиты моделей ещё до запуска.
