Новости 02:37, 3 июня 2026

Стэнфордские исследователи обнаружили, что масштабирование моделей снижает интерференцию градиентов

Группа учёных из Стэнфордского университета под руководством Кристофера Поттса (Christopher Potts) опубликовала результаты исследования, показывающие, что увеличение размера нейросетевых моделей позволяет снизить интерференцию градиентов и улучшить обучение редким задачам.

Исследование, проведённое командой под руководством профессора лингвистики и компьютерных наук Стэнфордского университета Кристофера Поттса, выявило ключевую зависимость между масштабом языковых моделей и их способностью обучаться редко встречающимся задачам. Авторы работы — в том числе Экдип Сингх Лубана (Ekdeep Singh Lubana), Лаура Руис (Laura Ruis), Эндрю Лампинен (Andrew Lampinen) и другие — показали, что при увеличении размера модели снижается интерференция градиентов, которая ранее препятствовала эффективному обучению на данных с длинным «хвостом» распределения.

В основе исследования лежит анализ механизмов, ограничивающих способность моделей справляться с задачами, представленными в обучающих выборках в минимальном объёме. Как отмечается в публикации, традиционные подходы к обучению нейросетей часто сталкиваются с проблемой «забывания» редких примеров из-за конфликтов между градиентами, возникающими при оптимизации. Масштабирование моделей, по словам авторов, смягчает этот эффект, позволяя сетям сохранять знания о менее частотных задачах без ущерба для общей производительности.

Результаты работы могут иметь практическое значение для разработки более универсальных и надёжных систем искусственного интеллекта. В частности, выводы исследователей подтверждают гипотезу о том, что увеличение вычислительных ресурсов и параметров модели не только повышает её общую точность, но и расширяет спектр решаемых задач за счёт более стабильного обучения на редких данных. Подробности исследования доступны в опубликованном препринте.

Источники: X-пост Кристофера Поттса (Christopher Potts), 1 июня 2026; препринт исследования.

Еще новости

OpenAI интегрировала модели GPT-5.5 и Codex в Amazon Bedrock с поддержкой IAM-аутентификации AWS

Perplexity представила инструмент для автоматизации поиска через генерацию Python-кода

OpenAI запускает инициативу AI Resilience с бюджетом $130 млн для исследований безопасности ИИ