Новости 00:37, 20 июня 2026
Поделиться

OpenAI раскрыла принципы масштабирования обучения с подкреплением и цепочки рассуждений

Старший инженер-исследователь OpenAI Лун Ван (Lun Wang) опубликовал пост, в котором оценил риски конкуренции после раскрытия ключевых принципов масштабирования моделей o1, включая обучение с подкреплением и метод цепочки рассуждений (chain-of-thought). Обсуждение развернулось среди специалистов по искусственному интеллекту на фоне запуска новой линейки моделей.

В ходе презентации моделей o1 компания OpenAI впервые подробно описала подходы к масштабированию обучения с подкреплением (reinforcement learning, RL) и методов цепочки рассуждений, которые легли в основу новой архитектуры. Как отметил в своём посте Лун Ван, ранее работавший в Google DeepMind и присоединившийся к OpenAI в 2023 году, раскрытие таких деталей может ускорить прогресс в индустрии, но одновременно снижает конкурентное преимущество компании.

По словам Вана, ключевые принципы масштабирования — такие как оптимизация процесса обучения с подкреплением и использование цепочек рассуждений для улучшения логических способностей моделей — теперь доступны широкому кругу исследователей. «Это не просто технические детали, а фундаментальные подходы, которые могут быть воспроизведены конкурентами», — написал он. При этом Ван подчеркнул, что OpenAI сохраняет лидерство за счёт доступа к уникальным данным и вычислительным мощностям, а также опыта в настройке гиперпараметров.

Обсуждение в профессиональном сообществе разделилось. Сооснователь Anthropic Джерри Творек (Jerzy Tworek) в ответном посте предположил, что раскрытие таких принципов может стимулировать инновации в отрасли, особенно среди стартапов и академических групп, у которых нет ресурсов для самостоятельных исследований в этой области. В то же время директор по исследованиям в OpenAI Майлз Брандейдж (Miles Brundage) отметил, что компания намеренно избегала публикации конкретных числовых значений и архитектурных деталей, ограничившись общими принципами.

Эксперты также обратили внимание на то, что метод цепочки рассуждений, ранее считавшийся экспериментальным подходом, теперь интегрирован в коммерческие продукты OpenAI. Это может изменить подходы к обучению моделей в других компаниях, включая Google DeepMind и Meta, где аналогичные исследования ведутся параллельно. При этом остаётся открытым вопрос, насколько быстро конкуренты смогут воспроизвести результаты OpenAI, учитывая зависимость от объёмов данных и вычислительных ресурсов.

Источники: X-пост Лун Ван (Lun Wang), 19 июня 2026 года; обсуждение в X-аккаунтах Джерри Творека (Jerzy Tworek) и Майлза Брандейджа (Miles Brundage).