Исследовательская лаборатория Sakana AI опубликовала метод DiffusionBlocks, позволяющий обучать глубокие нейросети по отдельным блокам вместо традиционного сквозного подхода. Технология, представленная в работе к конференции ICLR 2026, обещает снизить требования к памяти до 8 раз без потери качества.
Компания Sakana AI, основанная бывшими сотрудниками Google DeepMind и Stability AI, предложила принципиально новый подход к обучению глубоких нейросетей. Вместо традиционного метода обратного распространения ошибки (backpropagation), требующего одновременного хранения в памяти всей модели, DiffusionBlocks разбивает сеть на независимые блоки, которые обучаются поочерёдно.
Ключевая идея метода заключается в переосмыслении роли каждого блока нейросети: вместо совместной оптимизации всех параметров каждый блок настраивается так, чтобы приближать промежуточное представление данных к целевому результату. Авторы работы сравнивают этот процесс с поэтапным «очищением» сигнала в диффузионных моделях. «Каждый блок оптимизирует только свою задачу и может обучаться независимо», — говорится в публикации.
Метод протестирован на пяти типах архитектур: Vision Transformers (ViT), Diffusion Transformers (DiT), маскированных диффузионных моделях, авторегрессионных трансформерах и рекуррентных трансформерах с повторяющимися слоями. Во всех случаях DiffusionBlocks продемонстрировал результаты, сопоставимые с традиционным сквозным обучением, но при этом требовал в несколько раз меньше памяти. Особенно заметен выигрыш для рекуррентных архитектур, где новый подход позволяет заменить дорогостоящее обратное распространение во времени (BPTT) на однократный прямой проход.
Авторы работы — Лун Ван (Lun Wang), Дэвид Ха (David Ha) и другие исследователи из Sakana AI — подчёркивают, что их метод не только снижает аппаратные требования, но и открывает новые возможности для масштабирования моделей. В частности, обучение по блокам может упростить распределённое обучение на нескольких устройствах, так как каждый блок можно тренировать на отдельном GPU без необходимости синхронизации градиентов между ними.
Публикация вызвала широкий отклик в научном сообществе. Исследователь из Google DeepMind Сандер Дилеман (Sander Dieleman) отметил, что «диффузионные модели — это рекуррентные нейросети», проводя параллель между новым подходом и существующими архитектурами. А Фуронг Хуанг (Furong Huang) из Университета Мэриленда назвала DiffusionBlocks логическим продолжением идей, заложенных в ResNet.
Код и полный текст работы доступны в открытых репозиториях. Метод уже интегрирован в фреймворк Sakana AI для экспериментального использования.