Сооснователь OpenAI Джон Шульман (John Schulman) впервые публично рассказал, что его фундаментальная работа по обучению с подкреплением, легшая в основу алгоритма Proximal Policy Optimization (PPO), была отклонена на конференции NeurIPS 2017. Об этом он сообщил в социальной сети X, вызвав обсуждение в профессиональном сообществе.
Джон Шульман, один из ключевых разработчиков OpenAI и автор алгоритма PPO, поделился историей о неудачной попытке опубликовать статью на конференции NeurIPS в 2017 году. В посте на X он отметил, что работа, впоследствии ставшая основой для PPO — одного из самых востребованных методов обучения с подкреплением, — была отклонена рецензентами. Шульман не уточнил причины отказа, но подчеркнул, что это не помешало развитию алгоритма: сегодня PPO широко применяется в индустрии, в том числе для обучения языковых моделей.
Реакция коллег Шульмана оказалась неоднозначной. Некоторые исследователи, включая специалистов из Google DeepMind и Microsoft, выразили удивление, отметив, что работа имела все шансы быть принятой. Так, сотрудник Google Brain Тако Коэн (Taco Cohen) написал: «Это удивительно — статья выглядела многообещающе даже по современным меркам». Другие, напротив, указали на распространенность подобных случаев в академической среде, где субъективность оценок рецензентов может влиять на судьбу исследований.
Сам Шульман не стал подробно комментировать детали рецензирования, но его пост вызвал дискуссию о критериях отбора работ на крупных конференциях по машинному обучению. В частности, пользователи X обсуждали, насколько часто значимые технические прорывы остаются незамеченными на ранних этапах из-за консервативности рецензентов или неочевидности их потенциала. Отмечалось, что PPO, несмотря на первоначальный отказ, стал стандартом в индустрии благодаря практической эффективности.
В блоге OpenAI ранее публиковались материалы, посвященные развитию PPO, однако история с отклонением статьи на NeurIPS 2017 стала достоянием общественности только сейчас. Сам алгоритм используется в том числе для обучения моделей, таких как ChatGPT, и продолжает эволюционировать в рамках новых исследований.