Сооснователь стартапа CoreAutoAI Рохан Анил (Rohan Anil) опубликовал результаты тестирования, согласно которым немодифицированная версия оптимизатора PyTorch Shampoo от Meta демонстрирует сопоставимую производительность с NanoGPT в задачах обучения языковых моделей.
Рохан Анил, сооснователь компании CoreAutoAI и бывший сотрудник Google DeepMind, представил данные о производительности оптимизатора Shampoo, разработанного Meta для фреймворка PyTorch. В ходе тестирования на задаче обучения модели NanoGPT немодифицированная версия Shampoo показала скорость, сравнимую с эталонными реализациями.
Shampoo — это адаптивный оптимизатор второго порядка, который использует приближение кривизны функции потерь для ускорения сходимости. В отличие от классических методов первого порядка, таких как Adam или SGD, Shampoo учитывает взаимодействие между параметрами модели, что теоретически позволяет достигать более высокой эффективности. Однако на практике внедрение таких оптимизаторов часто требует значительных вычислительных затрат, что ограничивает их применение.
По словам Анила, результаты тестирования опровергают распространённое мнение о том, что оптимизаторы второго порядка неизбежно проигрывают по скорости более простым методам. «Немодифицированный Shampoo из репозитория Meta работает не хуже, чем специализированные реализации для NanoGPT», — отметил он в публикации. При этом подчёркивается, что для достижения таких результатов не потребовалось вносить изменения в исходный код оптимизатора.
В обсуждении результатов участники сообщества отметили, что Shampoo может стать более привлекательной альтернативой для обучения крупных языковых моделей, особенно в условиях ограниченных вычислительных ресурсов. Однако остаются вопросы о масштабируемости метода на модели с миллиардами параметров и его совместимости с другими архитектурами.
Источники: X-пост Роана Анила (Rohan Anil), 10 июня 2026 года; репозиторий PyTorch Shampoo Meta.