Компании Xiaomi и TileRT_AI объявили о выпуске модели MiMo-V2.5-Pro-UltraSpeed, способной обрабатывать 1000 токенов в секунду на архитектуре MoE с триллионом параметров, используя всего восемь стандартных GPU.
Китайский технологический гигант Xiaomi совместно с разработчиком оптимизированных ИИ-фреймворков TileRT_AI представили новую версию языковой модели MiMo-V2.5-Pro-UltraSpeed. По данным компаний, модель демонстрирует производительность в 1000 токенов в секунду при работе с архитектурой mixture-of-experts (MoE) объёмом в один триллион параметров. Для достижения таких показателей достаточно восьми графических процессоров стандартной конфигурации.
Разработчики подчёркивают, что ключевым фактором рекордной скорости стала оптимизация алгоритмов распределения нагрузки между экспертами в MoE-архитектуре, а также использование фирменных технологий TileRT_AI для ускорения вычислений. В пресс-службе Xiaomi отметили, что модель ориентирована на промышленное применение, включая системы реального времени и edge-устройства.
Ранее аналогичные показатели производительности демонстрировали только специализированные аппаратные решения или модели с существенно меньшим числом параметров. Эксперты отмечают, что достижение Xiaomi и TileRT_AI может снизить порог входа для компаний, планирующих развёртывание крупных языковых моделей без значительных инвестиций в инфраструктуру.
Технические детали реализации опубликованы в блоге TileRT_AI.
Источники: X-пост Zephyr, 8 июня 2026; блог TileRT_AI.