Новости 19:37, 18 июня 2026

Создатель алгоритма PPO Джон Шульман раскрыл отказ в публикации ключевой статьи на NIPS 2017

Сооснователь OpenAI Джон Шульман (John Schulman) впервые публично рассказал, что его фундаментальная работа по обучению с подкреплением, легшая в основу алгоритма Proximal Policy Optimization (PPO), была отклонена на конференции NeurIPS 2017. Об этом он сообщил в социальной сети X, вызвав обсуждение в профессиональном сообществе.

Джон Шульман, один из ключевых разработчиков OpenAI и автор алгоритма PPO, поделился историей о неудачной попытке опубликовать статью на конференции NeurIPS в 2017 году. В посте на X он отметил, что работа, впоследствии ставшая основой для PPO — одного из самых востребованных методов обучения с подкреплением, — была отклонена рецензентами. Шульман не уточнил причины отказа, но подчеркнул, что это не помешало развитию алгоритма: сегодня PPO широко применяется в индустрии, в том числе для обучения языковых моделей.

Реакция коллег Шульмана оказалась неоднозначной. Некоторые исследователи, включая специалистов из Google DeepMind и Microsoft, выразили удивление, отметив, что работа имела все шансы быть принятой. Так, сотрудник Google Brain Тако Коэн (Taco Cohen) написал: «Это удивительно — статья выглядела многообещающе даже по современным меркам». Другие, напротив, указали на распространенность подобных случаев в академической среде, где субъективность оценок рецензентов может влиять на судьбу исследований.

Сам Шульман не стал подробно комментировать детали рецензирования, но его пост вызвал дискуссию о критериях отбора работ на крупных конференциях по машинному обучению. В частности, пользователи X обсуждали, насколько часто значимые технические прорывы остаются незамеченными на ранних этапах из-за консервативности рецензентов или неочевидности их потенциала. Отмечалось, что PPO, несмотря на первоначальный отказ, стал стандартом в индустрии благодаря практической эффективности.

В блоге OpenAI ранее публиковались материалы, посвященные развитию PPO, однако история с отклонением статьи на NeurIPS 2017 стала достоянием общественности только сейчас. Сам алгоритм используется в том числе для обучения моделей, таких как ChatGPT, и продолжает эволюционировать в рамках новых исследований.

Источники: X-пост Джона Шульмана (John Schulman), 17 июня 2026; комментарии Тако Коэна (Taco Cohen), Гаутама Камата (Gautam Kamath) и других.

Еще новости

xAI запустила модель Grok 4.3 на платформе Amazon Bedrock с доступом к данным X в реальном времени

Стартап Odyssey ML привлёк $310 млн на разработку симуляторов физического мира

Стартап XDOF вышел из стелса с $70 млн и выпустил крупнейший открытый датасет для двуруких роботов