Китайская компания MiniMax раскрыла детали архитектуры разреженного внимания M3, обещая увеличение скорости декодирования в 15,6 раза при обработке контекста в 1 млн токенов. Об этом сообщили представители компании и независимые эксперты в социальной сети X.
Китайский разработчик моделей искусственного интеллекта MiniMax опубликовал технические подробности архитектуры M3 — нового поколения своей технологии разреженного внимания. По данным компании, новая архитектура обеспечивает ускорение предобработки (prefilling) в 9,7 раза и декодирования (decoding) в 15,6 раза при работе с контекстом длиной 1 млн токенов по сравнению с предыдущей версией M2.
Архитектура M3 использует блочную структуру разреженного внимания, которую эксперты сравнивают с упрощённой версией алгоритма NSA (Native Sparse Attention). Как отметил аналитик Теортакес (Teortaxes), это свидетельствует о продолжающемся исследовании возможностей оптимизации механизмов внимания в индустрии. «Лаборатории активно тестируют различные подходы к разреженному вниманию, и M3 — ещё один шаг в этом направлении», — написал он.
Ранее MiniMax позиционировала модель M2 как «компактную», однако она оказалась достаточно мощной для коммерческого применения. Ожидается, что полноразмерная версия M3 станет значительным шагом вперёд, хотя конкуренты — включая Kimi, GLM и Stepfun — также готовят обновления своих моделей. В отрасли сохраняется конкуренция за лидерство в разработке эффективных архитектур для обработки длинных контекстов.
В материалах MiniMax приводятся сравнения с архитектурами DeepSeek v3.2 (DSA) и v4 (CSA), однако детальные бенчмарки пока не опубликованы. Эксперты отмечают, что заявленные показатели производительности могут стать важным преимуществом для приложений, требующих обработки больших объёмов данных в реальном времени.