Новости 20:37, 28 июня 2026
Поделиться

Разработчик усомнился в корректности бенчмарка Prinzbench после низкого результата GLM-5.2

Независимый исследователь Лун Ван (Lun Wang), известный под ником Teortaxes, опубликовал критику бенчмарка Prinzbench, после того как модель GLM-5.2 от компании Zhipu AI набрала всего 30 баллов из 99 возможных. По его словам, тест содержит методологические ошибки, ставящие под сомнение его пригодность для оценки современных языковых моделей.

Лун Ван, разработчик и активный участник сообщества по оценке ИИ-моделей, заявил, что низкий результат GLM-5.2 в бенчмарке Prinzbench не отражает реальные возможности модели. В своём посте он указал на несколько проблем теста: неравномерное распределение сложности заданий, зависимость от специфических языковых конструкций и отсутствие проверки на устойчивость к шумам в данных. «Prinzbench измеряет не столько интеллект модели, сколько её способность угадывать шаблоны, заложенные авторами теста», — написал Ван.

Prinzbench, разработанный группой исследователей из Университета Карнеги — Меллона в 2025 году, позиционировался как универсальный инструмент для оценки когнитивных способностей языковых моделей. Тест включает 99 заданий, охватывающих логику, математику, понимание контекста и генерацию кода. Однако, по мнению Вана, его структура не учитывает особенности работы современных архитектур, таких как трансформеры с длинным контекстом.

Критика Вана вызвала дискуссию среди специалистов. Флориан Бранд (Florian Brand), исследователь из Hugging Face, поддержал тезис о необходимости пересмотра бенчмарков, отметив, что многие тесты устаревают быстрее, чем модели успевают их пройти. В то же время Лиан аль-Гейб (Lisan al Gaib), соавтор Prinzbench, отверг обвинения в предвзятости, заявив, что тест прошёл независимую экспертизу и соответствует стандартам оценки ИИ.

Результаты GLM-5.2 в Prinzbench стали неожиданностью для индустрии: модель, показавшая высокие результаты в других тестах, включая MMLU и HumanEval, не смогла преодолеть порог в 35 баллов. Zhipu AI пока не прокомментировала ситуацию, однако в сообществе уже обсуждаются возможные причины провала — от несовместимости токенизаторов до особенностей обучения модели на китайскоязычных данных.

Ван призвал разработчиков бенчмарков активнее взаимодействовать с сообществом и публиковать исходные коды тестов для независимой проверки. Он также предложил альтернативный подход к оценке моделей, основанный на динамическом генерации заданий с учётом контекста и адаптации сложности.

Источники: X-пост Teortaxes (Лун Ван), 27 июня 2026; блог Университета Карнеги — Меллона о Prinzbench.