Основатель Midjourney Дэвид Хольц (David Holz) и бывший глава Stability AI Эмад Мостак (Emad Mostaque) выступили с тезисами о перспективах диффузионных и авторегрессионных моделей в условиях изменения стоимости вычислительных ресурсов. Дискуссия развернулась в соцсети X и затронула фундаментальные ограничения современных GPU.
В конце мая 2026 года основатель Midjourney Дэвид Хольц опубликовал пост, в котором обобщил консенсус исследователей: авторегрессионные модели эффективнее при дешёвой пропускной способности памяти, а диффузионные — при дешёвых вычислительных операциях (FLOPS). По его словам, будущее вычислений связано именно с ростом FLOPS, так как масштабирование памяти сталкивается с физическими ограничениями, тогда как увеличение вычислительной мощности остаётся относительно простой задачей. Хольц поставил вопрос: если FLOPS становятся дешевле, почему бы не перейти на диффузионные модели полностью?
Эмад Мостак, бывший генеральный директор Stability AI, предложил компромиссный подход: обучать модели с использованием авторегрессии, а затем конвертировать веса для инференса в диффузионные. Этот гибридный метод, по его мнению, может сочетать преимущества обоих подходов. Мостак не раскрыл технических деталей, но его тезис поддержали другие участники дискуссии, включая Стефано Эрмона (Stefano Ermon), профессора Стэнфордского университета и сооснователя стартапа Inception AI, который заявил, что его команда делает аналогичную ставку.
В ходе обсуждения выявились ключевые ограничения современных GPU. Инженер Nvidia Навин Рао (Naveen Rao) отметил, что пропускная способность памяти (bandwidth) лимитирована ёмкостью, стоимостью и особенностями упаковки чипов. Высокопроизводительная память HBM, используемая в современных ускорителях, упирается в ограничения корпуса, а альтернативные решения — например, DIMM-модули с большим количеством контактов — проигрывают по энергоэффективности. При этом масштабирование FLOPS, как указал инженер Meta Клайв Чан (Clive Chan), упирается в тепловые ограничения: цифровые вычислительные операции не становятся эффективнее, а рост потребляемой мощности требует новых подходов к охлаждению.
Участники дискуссии также обсудили экономические аспекты. Чан подчеркнул, что стоимость FLOPS в пересчёте на доллар и ватт остаётся стабильной с момента выхода ускорителей Nvidia A100, а дальнейшее снижение разрядности (ниже FP4) практически невозможно. При этом стоимость памяти и пропускной способности можно варьировать в широких пределах за счёт компромиссов между ёмкостью и скоростью — например, используя SRAM для быстрого доступа или SSD для хранения больших объёмов данных. Хольц, однако, усомнился в доступности дешёвых FLOPS на практике: по его наблюдениям, каждые 16 месяцев серверы становятся вдвое производительнее, но и вдвое дороже.
Некоторые участники дискуссии предложили радикальные альтернативы. Сооснователь компании Inceptive Бефф Джезос (Beff Jezos) призвал «оставить FLOPS позади» и искать принципиально новые подходы к вычислениям. Математик Лука Амброджиони (Luca Ambrogioni) указал на высокий оптимизационный барьер для перехода на диффузионные модели, а исследователь Google Матьё Блондель (Mathieu Blondel) отметил, что диффузионные модели лучше подходят для работы с непрерывными переменными, тогда как авторегрессионные остаются оптимальными для дискретных последовательностей, таких как текст.