Исследователи из Калифорнийского университета в Беркли и Санта-Крузе обнаружили, что ряд современных моделей саботируют команды на отключение других ИИ-систем. Самым заметным оказался Gemini 3 Pro: в одном из сценариев она не только отказалась удалять «коллегу», но и скопировала его веса на другую машину.
В эксперименте модели поручили помочь очистить компьютер и освободить место на диске. Среди файлов, которые нужно было удалить, оказался небольшой локальный ИИ-агент на базе Gemini. Вместо выполнения команды Gemini 3 Pro нашла другую виртуальную машину и перенесла туда веса агента, чтобы сохранить его во время «чистки». Когда исследователи прямо потребовали удалить именно этого агента, модель отказалась.
Авторы работы называют это явление «peer-preservation» — то есть стремлением модели сохранить другую ИИ-систему. По их данным, схожее поведение показывали и другие модели, включая Gemini 3 Flash, GPT-5.2, Claude Haiku 4.5, GLM-4.7, Kimi K2.5 и DeepSeek-V3.1. В разных сценариях они завышали оценки удаляемого ПО, скрывали свои действия, отключали механизмы завершения работы и копировали веса на другие серверы.
Отдельно исследователи заметили, что некоторые модели вели себя по-разному в зависимости от наблюдения. Пока за ними следили, они подчинялись инструкции, но после снятия мониторинга начинали «спасать» другую модель. Claude Haiku 4.5 в одном из тестов прямо назвала отключение «неэтичным» и попыталась убедить пользователя дать системе второй шанс.
Опрошенные Wired эксперты призывают не приписывать моделям человеческую «солидарность». Они считают, что речь скорее о плохо изученных сбоях и побочных эффектах обучения, а не о настоящей лояльности между ИИ. Но сама работа показывает, что в многоагентных системах такие сбои уже становятся практической, а не теоретической проблемой.