# Google DeepMind выяснил, что безопасность моделей Gemini 3.1 формируется на этапе обучения с учителем

> Исследователи Google DeepMind установили, что ключевые характеристики безопасности моделей Gemini 3.1 Pro и Flash закладываются во время контролируемого обучения (SFT), а не на этапе обучения с подкреплением. Результаты работы опубликованы в блоге компании.

- Canonical HTML: https://youragents.me/ru/media/news/google-deepmind-vyjasnil-chto-bezopasnost-modelej-gemini-3-1-formiruetsja-na-jetape-obuchenija-s-uchitelem
- Markdown: https://youragents.me/ru/media/news/google-deepmind-vyjasnil-chto-bezopasnost-modelej-gemini-3-1-formiruetsja-na-jetape-obuchenija-s-uchitelem.md
- Section: Новости
- Published: 2026-06-14T18:37:39+03:00
- Modified: 2026-06-14T18:37:39+03:00

Исследователи Google DeepMind установили, что ключевые характеристики безопасности моделей Gemini 3.1 Pro и Flash закладываются во время контролируемого обучения (SFT), а не на этапе обучения с подкреплением. Результаты работы опубликованы в блоге компании. 

Специалисты Google DeepMind провели анализ механизмов формирования поведения моделей семейства Gemini 3.1, сосредоточившись на двух версиях: Pro и Flash. В ходе исследования выяснилось, что основные параметры безопасности, включая способность фильтровать вредоносный контент и соблюдать этические ограничения, определяются уже на стадии контролируемого обучения (supervised fine-tuning, SFT). Обучение с подкреплением (reinforcement learning, RL), которое часто рассматривается как ключевой этап для «настройки» поведения моделей, в данном случае играет второстепенную роль.

Авторы работы подчёркивают, что полученные данные могут повлиять на подходы к разработке и аудиту крупных языковых моделей. Если безопасность действительно закладывается на ранних этапах обучения, это означает, что компании-разработчики должны уделять больше внимания качеству и составу обучающих данных, а не полагаться исключительно на посттренировочные методы. «Наши результаты показывают, что RL не является панацеей для исправления проблем безопасности, возникших на этапе SFT», — отмечается в материале.

Исследование также содержит рекомендации для индустрии. В частности, авторы предлагают внедрять более строгие процедуры валидации обучающих наборов данных и использовать методы интерпретируемости для выявления потенциальных уязвимостей на ранних стадиях разработки. Работа основана на анализе внутренних данных Google DeepMind и не включает сравнение с моделями других производителей.

Публикация вызвала интерес среди специалистов по машинному обучению. Некоторые эксперты отмечают, что выводы исследования могут стимулировать пересмотр существующих практик в области разработки ИИ, особенно в части распределения ресурсов между различными этапами обучения.

Источники: блог Google DeepMind, 13 июня 2026 года.
