# Ошибка в законах масштабирования ИИ привела к созданию избыточно больших моделей

> Исследователь из Google DeepMind Сандер Дилеман (Sander Dieleman) на конференции ICML 2026 в Сеуле заявил, что многолетний дефект в расчётах эффективности нейросетей заставил индустрию обучать модели с завышенными параметрами и недостаточным объёмом данных.

- Canonical HTML: https://youragents.me/ru/media/news/oshibka-v-zakonah-masshtabirovanija-ii-privela-k-sozdaniju-izbytochno-bolshih-modelej
- Markdown: https://youragents.me/ru/media/news/oshibka-v-zakonah-masshtabirovanija-ii-privela-k-sozdaniju-izbytochno-bolshih-modelej.md
- Section: Новости
- Published: 2026-07-05T20:00:35+03:00
- Modified: 2026-07-05T20:00:35+03:00

Исследователь из Google DeepMind Сандер Дилеман (Sander Dieleman) на конференции ICML 2026 в Сеуле заявил, что многолетний дефект в расчётах эффективности нейросетей заставил индустрию обучать модели с завышенными параметрами и недостаточным объёмом данных. 

На конференции ICML 2026 в Южной Корее Дилеман представил анализ, согласно которому фундаментальная ошибка в классических законах масштабирования нейросетей — эмпирических правилах, определяющих зависимость качества модели от её размера и объёма обучающих данных, — привела к системному перекосу в разработке крупных языковых моделей (LLM). По его словам, из-за неверной интерпретации формул индустрия на протяжении нескольких лет создавала модели с избыточным числом параметров, которые при этом оставались недообученными.

Ключевая проблема, по данным исследования, заключалась в некорректном учёте эффекта «двойного спуска» — явления, при котором качество модели сначала ухудшается, а затем резко улучшается по мере увеличения объёма данных. В классических работах, включая исследования OpenAI и DeepMind, этот эффект игнорировался, что приводило к завышенным оценкам оптимального размера модели. «Мы десятилетиями оптимизировали архитектуры под неверные метрики», — отметил Дилеман в своём докладе.

Ошибка стала особенно заметной после 2022 года, когда рост вычислительных мощностей позволил обучать модели с сотнями миллиардов параметров. При этом, как утверждает Дилеман, многие из таких моделей могли бы показывать сопоставимые результаты при вдвое меньшем размере, если бы обучались на большем объёме данных. В качестве примера он привёл недавние эксперименты Google DeepMind, где модели с 50 млрд параметров, обученные на 10 трлн токенов, превосходили аналоги с 200 млрд параметров, но обученные на стандартных 2–3 трлн токенов.

Результаты исследования уже вызвали дискуссию в научном сообществе. Сооснователь компании Reka Мишель Кастаста (Michele Catasta) в комментарии для Digg отметил, что выводы Дилемана могут объяснить, почему некоторые стартапы, фокусирующиеся на эффективных архитектурах, демонстрируют сопоставимые с гигантами результаты при значительно меньших затратах. В то же время представители OpenAI и Anthropic пока не прокомментировали публикацию.

Источники: X-пост Сандера Дилемана, 4 июля 2026; доклад на ICML 2026; комментарий Мишеля Кастасты для Digg.