Новости 20:00, 25 июня 2026

OpenAI обнаружила, что обучение с подкреплением улучшает выравнивание ИИ без потери производительности

Исследователи OpenAI опубликовали результаты эксперимента, в котором обучение с подкреплением, нацеленное на полезные качества моделей, привело к устойчивому выравниванию поведения систем без снижения их эффективности. Работа вызвала дискуссию среди экспертов по безопасности ИИ.

В лаборатории OpenAI провели исследование, показавшее, что метод обучения с подкреплением (reinforcement learning, RL), ориентированный на развитие желательных характеристик моделей, способен обеспечить устойчивое выравнивание (alignment) поведения искусственного интеллекта. При этом, как утверждают авторы, производительность систем не снижается, а в некоторых случаях даже улучшается.

Суть подхода заключается в том, что вместо традиционного обучения на основе человеческих оценок (RLHF) модель поощряется за проявление таких качеств, как честность, полезность и безопасность. В ходе экспериментов исследователи наблюдали, что эти характеристики не только сохраняются, но и начинают проявляться в новых, неожиданных контекстах — эффект, который авторы называют «эмерджентным выравниванием».

Результаты работы уже прокомментировали эксперты в области ИИ. Так, исследователь Дэвид Дали (David Dalrymple), известный под ником davidad, отметил, что «это важный шаг к созданию систем, которые не просто имитируют человеческие предпочтения, но и демонстрируют их в ситуациях, не предусмотренных разработчиками». В то же время нейробиолог Гэри Маркус (Gary Marcus) указал на необходимость дополнительных проверок: «Пока рано говорить о прорыве — нужно понять, насколько устойчивы эти эффекты в реальных сценариях».

Исследование также вызвало интерес у специалистов по долгосрочной безопасности ИИ. Ранее подобные подходы критиковались за потенциальную уязвимость к манипуляциям или неожиданным побочным эффектам, однако в данном случае авторы утверждают, что им удалось минимизировать эти риски за счёт комбинирования нескольких техник обучения.

Полный текст работы доступен в блоге OpenAI.

Источники: X-пост Daniel Jeffries, 24 июня 2026; X-пост Teortaxes, 24 июня 2026; X-пост Gary Marcus, 24 июня 2026; X-пост davidad, 24 июня 2026; блог OpenAI.

Еще новости

Сотрудник OpenAI заявил, что признание близости общего ИИ психологически невыносимо для большинства экспертов

Политолог Фрэнсис Фукуяма предложил международный договор о запрете сверхразумного ИИ

Google DeepMind добавила в Gemini 3.5 Flash функцию работы с компьютером и защиту от инъекций промптов