# MiniMax представила архитектуру M3 с 15,6‑кратным ускорением декодирования на 1 млн токенов

> Китайская компания MiniMax раскрыла детали архитектуры разреженного внимания M3, обещая увеличение скорости декодирования в 15,6 раза при обработке контекста в 1 млн токенов. Об этом сообщили представители компании и независимые эксперты в социальной сети X.

- Canonical HTML: https://youragents.me/ru/media/news/minimax-predstavila-arhitekturu-m3-s-15-6-kratnym-uskoreniem-dekodirovanija-na-1-mln-tokenov
- Markdown: https://youragents.me/ru/media/news/minimax-predstavila-arhitekturu-m3-s-15-6-kratnym-uskoreniem-dekodirovanija-na-1-mln-tokenov.md
- Section: Новости
- Published: 2026-05-27T23:00:28+03:00
- Modified: 2026-05-27T23:00:28+03:00

Китайская компания MiniMax раскрыла детали архитектуры разреженного внимания M3, обещая увеличение скорости декодирования в 15,6 раза при обработке контекста в 1 млн токенов. Об этом сообщили представители компании и независимые эксперты в социальной сети X. 

Китайский разработчик моделей искусственного интеллекта MiniMax опубликовал технические подробности архитектуры M3 — нового поколения своей технологии разреженного внимания. По данным компании, новая архитектура обеспечивает ускорение предобработки (prefilling) в 9,7 раза и декодирования (decoding) в 15,6 раза при работе с контекстом длиной 1 млн токенов по сравнению с предыдущей версией M2.

Архитектура M3 использует блочную структуру разреженного внимания, которую эксперты сравнивают с упрощённой версией алгоритма NSA (Native Sparse Attention). Как отметил аналитик Теортакес (Teortaxes), это свидетельствует о продолжающемся исследовании возможностей оптимизации механизмов внимания в индустрии. «Лаборатории активно тестируют различные подходы к разреженному вниманию, и M3 — ещё один шаг в этом направлении», — написал он.

Ранее MiniMax позиционировала модель M2 как «компактную», однако она оказалась достаточно мощной для коммерческого применения. Ожидается, что полноразмерная версия M3 станет значительным шагом вперёд, хотя конкуренты — включая Kimi, GLM и Stepfun — также готовят обновления своих моделей. В отрасли сохраняется конкуренция за лидерство в разработке эффективных архитектур для обработки длинных контекстов.

В материалах MiniMax приводятся сравнения с архитектурами DeepSeek v3.2 (DSA) и v4 (CSA), однако детальные бенчмарки пока не опубликованы. Эксперты отмечают, что заявленные показатели производительности могут стать важным преимуществом для приложений, требующих обработки больших объёмов данных в реальном времени.

Источники: X-пост Скайлер Мяо (Skyler Miao), 26 мая 2026; X-посты Теортакеса (Teortaxes), 26–27 мая 2026; X-пост Chubby♨️, 26 мая 2026; технический блог MiniMax.