Новости 01:00, 29 мая 2026

Sakana AI представила метод обучения нейросетей по блокам, сокращающий потребление памяти в 8 раз

Исследовательская лаборатория Sakana AI опубликовала метод DiffusionBlocks, позволяющий обучать глубокие нейросети по отдельным блокам вместо традиционного сквозного подхода. Технология, представленная в работе к конференции ICLR 2026, обещает снизить требования к памяти до 8 раз без потери качества.

Компания Sakana AI, основанная бывшими сотрудниками Google DeepMind и Stability AI, предложила принципиально новый подход к обучению глубоких нейросетей. Вместо традиционного метода обратного распространения ошибки (backpropagation), требующего одновременного хранения в памяти всей модели, DiffusionBlocks разбивает сеть на независимые блоки, которые обучаются поочерёдно.

Ключевая идея метода заключается в переосмыслении роли каждого блока нейросети: вместо совместной оптимизации всех параметров каждый блок настраивается так, чтобы приближать промежуточное представление данных к целевому результату. Авторы работы сравнивают этот процесс с поэтапным «очищением» сигнала в диффузионных моделях. «Каждый блок оптимизирует только свою задачу и может обучаться независимо», — говорится в публикации.

Метод протестирован на пяти типах архитектур: Vision Transformers (ViT), Diffusion Transformers (DiT), маскированных диффузионных моделях, авторегрессионных трансформерах и рекуррентных трансформерах с повторяющимися слоями. Во всех случаях DiffusionBlocks продемонстрировал результаты, сопоставимые с традиционным сквозным обучением, но при этом требовал в несколько раз меньше памяти. Особенно заметен выигрыш для рекуррентных архитектур, где новый подход позволяет заменить дорогостоящее обратное распространение во времени (BPTT) на однократный прямой проход.

Авторы работы — Лун Ван (Lun Wang), Дэвид Ха (David Ha) и другие исследователи из Sakana AI — подчёркивают, что их метод не только снижает аппаратные требования, но и открывает новые возможности для масштабирования моделей. В частности, обучение по блокам может упростить распределённое обучение на нескольких устройствах, так как каждый блок можно тренировать на отдельном GPU без необходимости синхронизации градиентов между ними.

Публикация вызвала широкий отклик в научном сообществе. Исследователь из Google DeepMind Сандер Дилеман (Sander Dieleman) отметил, что «диффузионные модели — это рекуррентные нейросети», проводя параллель между новым подходом и существующими архитектурами. А Фуронг Хуанг (Furong Huang) из Университета Мэриленда назвала DiffusionBlocks логическим продолжением идей, заложенных в ResNet.

Код и полный текст работы доступны в открытых репозиториях. Метод уже интегрирован в фреймворк Sakana AI для экспериментального использования.

Источники: X-пост Sakana AI, 27 мая 2026; X-пост Лун Ван (Lun Wang), 27 мая 2026; препринт на arXiv; репозиторий на GitHub.

Еще новости

Команда CZ Biohub открыла доступ к модели ESMFold2 для предсказания структур белков

Genesis-Embodied-AI выпустила симулятор Genesis World 1.0 с ускорением до 100 раз

Стартап Trajectory привлёк $15 млн на платформу непрерывного обучения для агентных ИИ-моделей