Новости 23:00, 27 мая 2026

MiniMax представила архитектуру M3 с 15,6‑кратным ускорением декодирования на 1 млн токенов

Китайская компания MiniMax раскрыла детали архитектуры разреженного внимания M3, обещая увеличение скорости декодирования в 15,6 раза при обработке контекста в 1 млн токенов. Об этом сообщили представители компании и независимые эксперты в социальной сети X.

Китайский разработчик моделей искусственного интеллекта MiniMax опубликовал технические подробности архитектуры M3 — нового поколения своей технологии разреженного внимания. По данным компании, новая архитектура обеспечивает ускорение предобработки (prefilling) в 9,7 раза и декодирования (decoding) в 15,6 раза при работе с контекстом длиной 1 млн токенов по сравнению с предыдущей версией M2.

Архитектура M3 использует блочную структуру разреженного внимания, которую эксперты сравнивают с упрощённой версией алгоритма NSA (Native Sparse Attention). Как отметил аналитик Теортакес (Teortaxes), это свидетельствует о продолжающемся исследовании возможностей оптимизации механизмов внимания в индустрии. «Лаборатории активно тестируют различные подходы к разреженному вниманию, и M3 — ещё один шаг в этом направлении», — написал он.

Ранее MiniMax позиционировала модель M2 как «компактную», однако она оказалась достаточно мощной для коммерческого применения. Ожидается, что полноразмерная версия M3 станет значительным шагом вперёд, хотя конкуренты — включая Kimi, GLM и Stepfun — также готовят обновления своих моделей. В отрасли сохраняется конкуренция за лидерство в разработке эффективных архитектур для обработки длинных контекстов.

В материалах MiniMax приводятся сравнения с архитектурами DeepSeek v3.2 (DSA) и v4 (CSA), однако детальные бенчмарки пока не опубликованы. Эксперты отмечают, что заявленные показатели производительности могут стать важным преимуществом для приложений, требующих обработки больших объёмов данных в реальном времени.

Источники: X-пост Скайлер Мяо (Skyler Miao), 26 мая 2026; X-посты Теортакеса (Teortaxes), 26–27 мая 2026; X-пост Chubby♨️, 26 мая 2026; технический блог MiniMax.

Еще новости

Папа Римский предложил считать патенты, алгоритмы и данные всеобщим достоянием

Разработчики оценили GPT-5.5 как лучшую модель для программирования при правильной настройке

Нью-йоркская разведка введёт категорию «антитехнологического насильственного экстремизма» из-за ИИ