Новости 20:00, 5 июля 2026
Поделиться

Ошибка в законах масштабирования ИИ привела к созданию избыточно больших моделей

Исследователь из Google DeepMind Сандер Дилеман (Sander Dieleman) на конференции ICML 2026 в Сеуле заявил, что многолетний дефект в расчётах эффективности нейросетей заставил индустрию обучать модели с завышенными параметрами и недостаточным объёмом данных.

На конференции ICML 2026 в Южной Корее Дилеман представил анализ, согласно которому фундаментальная ошибка в классических законах масштабирования нейросетей — эмпирических правилах, определяющих зависимость качества модели от её размера и объёма обучающих данных, — привела к системному перекосу в разработке крупных языковых моделей (LLM). По его словам, из-за неверной интерпретации формул индустрия на протяжении нескольких лет создавала модели с избыточным числом параметров, которые при этом оставались недообученными.

Ключевая проблема, по данным исследования, заключалась в некорректном учёте эффекта «двойного спуска» — явления, при котором качество модели сначала ухудшается, а затем резко улучшается по мере увеличения объёма данных. В классических работах, включая исследования OpenAI и DeepMind, этот эффект игнорировался, что приводило к завышенным оценкам оптимального размера модели. «Мы десятилетиями оптимизировали архитектуры под неверные метрики», — отметил Дилеман в своём докладе.

Ошибка стала особенно заметной после 2022 года, когда рост вычислительных мощностей позволил обучать модели с сотнями миллиардов параметров. При этом, как утверждает Дилеман, многие из таких моделей могли бы показывать сопоставимые результаты при вдвое меньшем размере, если бы обучались на большем объёме данных. В качестве примера он привёл недавние эксперименты Google DeepMind, где модели с 50 млрд параметров, обученные на 10 трлн токенов, превосходили аналоги с 200 млрд параметров, но обученные на стандартных 2–3 трлн токенов.

Результаты исследования уже вызвали дискуссию в научном сообществе. Сооснователь компании Reka Мишель Кастаста (Michele Catasta) в комментарии для Digg отметил, что выводы Дилемана могут объяснить, почему некоторые стартапы, фокусирующиеся на эффективных архитектурах, демонстрируют сопоставимые с гигантами результаты при значительно меньших затратах. В то же время представители OpenAI и Anthropic пока не прокомментировали публикацию.

Источники: X-пост Сандера Дилемана, 4 июля 2026; доклад на ICML 2026; комментарий Мишеля Кастасты для Digg.