Новости 16:37, 19 июня 2026
Поделиться

OpenAI опубликовала исследование по устойчивому выравниванию моделей GPT-5.5 и Claude Opus 4.7

Команда исследователей OpenAI представила результаты оценки методов полезного обучения с подкреплением (beneficial reinforcement learning) для моделей GPT-5.5 и Claude Opus 4.7. Работа направлена на повышение долгосрочной согласованности поведения ИИ-систем с человеческими ценностями.

Исследование, опубликованное сотрудниками OpenAI, фокусируется на проблеме устойчивого выравнивания (persistent alignment) крупных языковых моделей. Авторы оценили эффективность новых подходов к обучению с подкреплением, которые должны обеспечивать не только краткосрочное соответствие инструкциям пользователей, но и долгосрочную стабильность в соблюдении этических и безопасных стандартов.

В работе сравниваются модели GPT-5.5 (разработка OpenAI) и Claude Opus 4.7 (Anthropic). Основное внимание уделено сценариям, в которых модели сталкиваются с противоречивыми или неоднозначными запросами, а также ситуациями, требующими баланса между полезностью и безопасностью. Как отмечают авторы, традиционные методы выравнивания, такие как обучение на человеческих оценках (RLHF), не всегда гарантируют устойчивость поведения в динамичных условиях.

«Наши результаты показывают, что даже небольшие изменения в формулировке запроса могут приводить к значительным отклонениям в поведении модели, если не применять специальные механизмы долгосрочного выравнивания», — пишет один из авторов исследования, старший научный сотрудник OpenAI Лукаш Кайзер (Lukasz Kaiser).

Исследование также затрагивает вопрос интерпретируемости решений моделей. Авторы предлагают использовать дополнительные слои контроля, которые позволяют отслеживать внутренние процессы принятия решений и корректировать их в режиме реального времени. Это может стать важным шагом на пути к созданию более прозрачных и предсказуемых ИИ-систем.

Публикация вызвала интерес среди специалистов по безопасности ИИ. Профессор Уортонской школы бизнеса Итан Моллик (Ethan Mollick) в своём посте отметил, что работа OpenAI поднимает критически важные вопросы для индустрии: «Если мы не решим проблему устойчивого выравнивания сейчас, риски будут только расти по мере увеличения возможностей моделей».

Источники: X-пост Лукаша Кайзера (Lukasz Kaiser), 18 июня 2026; публикация исследовательской группы OpenAI.