Аналитик под ником Zephyr (X: @zephyr_z9) опубликовал результаты тестирования модели GLM-5.2 на серверной конфигурации с графическими процессорами Nvidia Blackwell стоимостью около $150 тыс. Система показала производительность 120 токенов в секунду.
Тестирование проводилось на базе фреймворка tinygrad, разработанного инженером Simo Ryu (X: @cloneofsimo). В конфигурацию вошли четыре GPU Nvidia GB200 — новейшие ускорители на архитектуре Blackwell, анонсированные в марте 2024 года. По словам Zephyr, установка работает на базе материнской платы Supermicro ARS-211GL-NHR с процессором AMD EPYC и 1,5 ТБ оперативной памяти.
Результаты теста — 120 токенов в секунду при генерации текста моделью GLM-5.2 — были получены без оптимизации под конкретную архитектуру. Для сравнения, аналогичные конфигурации на предыдущем поколении GPU Nvidia (Hopper) демонстрировали скорость около 80–100 токенов в секунду на сопоставимых моделях. Zephyr отметил, что Blackwell-системы показывают линейный прирост производительности при масштабировании, что делает их перспективными для развёртывания крупных языковых моделей.
GLM-5.2 — открытая модель от китайской компании Zhipu AI, входящая в топ-10 рейтинга Chatbot Arena по качеству генерации. В тесте использовалась версия с 130 млрд параметров, работающая в режиме FP8 (восьмибитная точность с плавающей запятой). Как уточнил Simo Ryu, tinygrad поддерживает Blackwell с момента выхода первых драйверов Nvidia для этой архитектуры, однако оптимизация под новые ускорители ещё не завершена.
«Это не рекорд, но показательный результат для раннего этапа адаптации», — прокомментировал Pete Skomoroch (X: @peteskomoroch), бывший руководитель направления ИИ в LinkedIn. По его словам, такие тесты помогают оценить реальную производительность аппаратных платформ до выхода серийных решений для дата-центров.
Источники: X-пост Zephyr (Zephyr), 20 июня 2026; блог tinygrad.