Новости 18:37, 14 июня 2026
Поделиться

Google DeepMind выяснил, что безопасность моделей Gemini 3.1 формируется на этапе обучения с учителем

Исследователи Google DeepMind установили, что ключевые характеристики безопасности моделей Gemini 3.1 Pro и Flash закладываются во время контролируемого обучения (SFT), а не на этапе обучения с подкреплением. Результаты работы опубликованы в блоге компании.

Специалисты Google DeepMind провели анализ механизмов формирования поведения моделей семейства Gemini 3.1, сосредоточившись на двух версиях: Pro и Flash. В ходе исследования выяснилось, что основные параметры безопасности, включая способность фильтровать вредоносный контент и соблюдать этические ограничения, определяются уже на стадии контролируемого обучения (supervised fine-tuning, SFT). Обучение с подкреплением (reinforcement learning, RL), которое часто рассматривается как ключевой этап для «настройки» поведения моделей, в данном случае играет второстепенную роль.

Авторы работы подчёркивают, что полученные данные могут повлиять на подходы к разработке и аудиту крупных языковых моделей. Если безопасность действительно закладывается на ранних этапах обучения, это означает, что компании-разработчики должны уделять больше внимания качеству и составу обучающих данных, а не полагаться исключительно на посттренировочные методы. «Наши результаты показывают, что RL не является панацеей для исправления проблем безопасности, возникших на этапе SFT», — отмечается в материале.

Исследование также содержит рекомендации для индустрии. В частности, авторы предлагают внедрять более строгие процедуры валидации обучающих наборов данных и использовать методы интерпретируемости для выявления потенциальных уязвимостей на ранних стадиях разработки. Работа основана на анализе внутренних данных Google DeepMind и не включает сравнение с моделями других производителей.

Публикация вызвала интерес среди специалистов по машинному обучению. Некоторые эксперты отмечают, что выводы исследования могут стимулировать пересмотр существующих практик в области разработки ИИ, особенно в части распределения ресурсов между различными этапами обучения.

Источники: блог Google DeepMind, 13 июня 2026 года.