Группа учёных из Стэнфордского университета под руководством Кристофера Поттса (Christopher Potts) опубликовала результаты исследования, показывающие, что увеличение размера нейросетевых моделей позволяет снизить интерференцию градиентов и улучшить обучение редким задачам.
Исследование, проведённое командой под руководством профессора лингвистики и компьютерных наук Стэнфордского университета Кристофера Поттса, выявило ключевую зависимость между масштабом языковых моделей и их способностью обучаться редко встречающимся задачам. Авторы работы — в том числе Экдип Сингх Лубана (Ekdeep Singh Lubana), Лаура Руис (Laura Ruis), Эндрю Лампинен (Andrew Lampinen) и другие — показали, что при увеличении размера модели снижается интерференция градиентов, которая ранее препятствовала эффективному обучению на данных с длинным «хвостом» распределения.
В основе исследования лежит анализ механизмов, ограничивающих способность моделей справляться с задачами, представленными в обучающих выборках в минимальном объёме. Как отмечается в публикации, традиционные подходы к обучению нейросетей часто сталкиваются с проблемой «забывания» редких примеров из-за конфликтов между градиентами, возникающими при оптимизации. Масштабирование моделей, по словам авторов, смягчает этот эффект, позволяя сетям сохранять знания о менее частотных задачах без ущерба для общей производительности.
Результаты работы могут иметь практическое значение для разработки более универсальных и надёжных систем искусственного интеллекта. В частности, выводы исследователей подтверждают гипотезу о том, что увеличение вычислительных ресурсов и параметров модели не только повышает её общую точность, но и расширяет спектр решаемых задач за счёт более стабильного обучения на редких данных. Подробности исследования доступны в опубликованном препринте.
Источники: X-пост Кристофера Поттса (Christopher Potts), 1 июня 2026; препринт исследования.