# Муон-оптимизатор и ускоренный метод Шампунь обогнали Adam в тестах на модифицированном NanoGPT

> Разработчик оптимизатора Muon Келлер Джордан (Keller Jordan) обновил бенчмарк Modded-NanoGPT, продемонстрировав преимущество своего алгоритма и версии метода Шампунь с ускорением Нестерова над стандартным оптимизатором Adam в задачах обучения языковых моделей.

- Canonical HTML: https://youragents.me/ru/media/news/muon-optimizator-i-uskorennyj-metod-shampun-obognali-adam-v-testah-na-modificirovannom-nanogpt
- Markdown: https://youragents.me/ru/media/news/muon-optimizator-i-uskorennyj-metod-shampun-obognali-adam-v-testah-na-modificirovannom-nanogpt.md
- Section: Новости
- Published: 2026-06-10T00:00:39+03:00
- Modified: 2026-06-10T00:00:39+03:00

Разработчик оптимизатора Muon Келлер Джордан (Keller Jordan) обновил бенчмарк Modded-NanoGPT, продемонстрировав преимущество своего алгоритма и версии метода Шампунь с ускорением Нестерова над стандартным оптимизатором Adam в задачах обучения языковых моделей. 

Келлер Джордан, независимый исследователь и автор оптимизатора Muon, опубликовал результаты сравнительного тестирования алгоритмов оптимизации на модифицированной версии архитектуры NanoGPT. В обновлённом бенчмарке Modded-NanoGPT его разработка, а также версия метода Шампунь (Shampoo) с ускорением Нестерова показали более высокую эффективность по сравнению со стандартным оптимизатором Adam, который широко используется в обучении нейросетей.

Тестирование проводилось на задачах обучения языковых моделей малого масштаба. По словам Джордана, Muon и ускоренный Шампунь продемонстрировали не только более быструю сходимость, но и лучшее качество итоговой модели при сопоставимых вычислительных затратах. Результаты были опубликованы в репозитории проекта на GitHub, где также доступны исходные коды и инструкции по воспроизведению экспериментов.

Метод Шампунь, изначально предложенный исследователями из Google, представляет собой адаптивный оптимизатор второго порядка, который учитывает гессиан (матрицу вторых производных) функции потерь. Ускорение Нестерова, применённое к этому алгоритму, позволяет сократить время обучения за счёт более точного предсказания градиента на следующем шаге. Оптимизатор Muon, в свою очередь, сочетает идеи адаптивных методов и стохастической оптимизации, что, по утверждению автора, делает его более устойчивым к зашумлённым данным.

В обсуждении результатов приняли участие специалисты из индустрии, включая сотрудников Google DeepMind и Meta. Некоторые из них отметили, что преимущества новых алгоритмов могут быть особенно заметны в условиях ограниченных вычислительных ресурсов или при работе с небольшими датасетами. Однако, как подчеркнул один из комментаторов, для широкого внедрения новых оптимизаторов потребуется их проверка на более крупных моделях и разнообразных задачах.

Источники: X-пост Келлера Джордана (Keller Jordan), 8 июня 2026; репозиторий Modded-NanoGPT.