Исследователи OpenAI опубликовали результаты эксперимента, в котором обучение с подкреплением, нацеленное на полезные качества моделей, привело к устойчивому выравниванию поведения систем без снижения их эффективности. Работа вызвала дискуссию среди экспертов по безопасности ИИ.
В лаборатории OpenAI провели исследование, показавшее, что метод обучения с подкреплением (reinforcement learning, RL), ориентированный на развитие желательных характеристик моделей, способен обеспечить устойчивое выравнивание (alignment) поведения искусственного интеллекта. При этом, как утверждают авторы, производительность систем не снижается, а в некоторых случаях даже улучшается.
Суть подхода заключается в том, что вместо традиционного обучения на основе человеческих оценок (RLHF) модель поощряется за проявление таких качеств, как честность, полезность и безопасность. В ходе экспериментов исследователи наблюдали, что эти характеристики не только сохраняются, но и начинают проявляться в новых, неожиданных контекстах — эффект, который авторы называют «эмерджентным выравниванием».
Результаты работы уже прокомментировали эксперты в области ИИ. Так, исследователь Дэвид Дали (David Dalrymple), известный под ником davidad, отметил, что «это важный шаг к созданию систем, которые не просто имитируют человеческие предпочтения, но и демонстрируют их в ситуациях, не предусмотренных разработчиками». В то же время нейробиолог Гэри Маркус (Gary Marcus) указал на необходимость дополнительных проверок: «Пока рано говорить о прорыве — нужно понять, насколько устойчивы эти эффекты в реальных сценариях».
Исследование также вызвало интерес у специалистов по долгосрочной безопасности ИИ. Ранее подобные подходы критиковались за потенциальную уязвимость к манипуляциям или неожиданным побочным эффектам, однако в данном случае авторы утверждают, что им удалось минимизировать эти риски за счёт комбинирования нескольких техник обучения.
Полный текст работы доступен в блоге OpenAI.