Новости 01:00, 9 июня 2026

В MIT предложили метод обучения рекуррентных нейросетей без обратного распространения ошибки во времени

Профессор Массачусетского технологического института (MIT) Филип Айзола (Phillip Isola) представил подход Supervised Memory Training (SMT), позволяющий обучать рекуррентные нейронные сети (RNN) без использования алгоритма обратного распространения ошибки через время (BPTT). Метод может упростить и ускорить тренировку моделей для задач с последовательными данными.

Филип Айзола, доцент кафедры электротехники и компьютерных наук MIT, опубликовал работу, в которой описывает альтернативный способ обучения рекуррентных нейросетей. Традиционно для таких моделей применяется метод обратного распространения ошибки через время (backpropagation through time, BPTT), который требует значительных вычислительных ресурсов и может приводить к проблемам с исчезающим или взрывающимся градиентом.

Новый подход, названный Supervised Memory Training (SMT), предлагает обучать RNN без BPTT, используя вместо этого контролируемое обучение скрытых состояний сети. По словам Айзолы, метод позволяет избежать сложностей, связанных с длительными зависимостями в последовательных данных, и потенциально может повысить эффективность обучения.

В работе отмечается, что SMT может быть особенно полезен для задач, где важно учитывать контекст на больших временных интервалах, таких как обработка естественного языка или анализ временных рядов. Автор подчёркивает, что метод не требует модификации архитектуры сети и совместим с существующими фреймворками для глубокого обучения.

Исследование вызвало интерес среди специалистов по машинному обучению. Так, Винсент Зитцманн (Vincent Sitzmann), доцент Стэнфордского университета, назвал работу «важным шагом к более эффективному обучению рекуррентных моделей». Другие эксперты отмечают, что SMT может стать альтернативой трансформерам в некоторых сценариях, где требуется работа с последовательностями данных.

Источники: X-пост Phillip Isola, 7 июня 2026; блог MIT.

Еще новости

Thinking Machines выпустила открытую мультимодальную модель Inkling с весами на 975 млрд параметров

Сооснователь Salesforce Брет Тейлор обвинил ИИ в изменении стиля деловой переписки

SpaceXAI открыла исходный код инструментов для сборки Grok и расширила доступ в ЕС