Новости 00:00, 10 июня 2026
Поделиться

Муон-оптимизатор и ускоренный метод Шампунь обогнали Adam в тестах на модифицированном NanoGPT

Разработчик оптимизатора Muon Келлер Джордан (Keller Jordan) обновил бенчмарк Modded-NanoGPT, продемонстрировав преимущество своего алгоритма и версии метода Шампунь с ускорением Нестерова над стандартным оптимизатором Adam в задачах обучения языковых моделей.

Келлер Джордан, независимый исследователь и автор оптимизатора Muon, опубликовал результаты сравнительного тестирования алгоритмов оптимизации на модифицированной версии архитектуры NanoGPT. В обновлённом бенчмарке Modded-NanoGPT его разработка, а также версия метода Шампунь (Shampoo) с ускорением Нестерова показали более высокую эффективность по сравнению со стандартным оптимизатором Adam, который широко используется в обучении нейросетей.

Тестирование проводилось на задачах обучения языковых моделей малого масштаба. По словам Джордана, Muon и ускоренный Шампунь продемонстрировали не только более быструю сходимость, но и лучшее качество итоговой модели при сопоставимых вычислительных затратах. Результаты были опубликованы в репозитории проекта на GitHub, где также доступны исходные коды и инструкции по воспроизведению экспериментов.

Метод Шампунь, изначально предложенный исследователями из Google, представляет собой адаптивный оптимизатор второго порядка, который учитывает гессиан (матрицу вторых производных) функции потерь. Ускорение Нестерова, применённое к этому алгоритму, позволяет сократить время обучения за счёт более точного предсказания градиента на следующем шаге. Оптимизатор Muon, в свою очередь, сочетает идеи адаптивных методов и стохастической оптимизации, что, по утверждению автора, делает его более устойчивым к зашумлённым данным.

В обсуждении результатов приняли участие специалисты из индустрии, включая сотрудников Google DeepMind и Meta. Некоторые из них отметили, что преимущества новых алгоритмов могут быть особенно заметны в условиях ограниченных вычислительных ресурсов или при работе с небольшими датасетами. Однако, как подчеркнул один из комментаторов, для широкого внедрения новых оптимизаторов потребуется их проверка на более крупных моделях и разнообразных задачах.

Источники: X-пост Келлера Джордана (Keller Jordan), 8 июня 2026; репозиторий Modded-NanoGPT.