Новости 18:00, 14 июня 2026

Китайская модель Kimi 2.7 обошла GPT-5 в математическом бенчмарке ErdosBench

Китайская языковая модель Kimi 2.7 от компании Moonshot AI заняла второе место в обновлённом рейтинге математического бенчмарка ErdosBench, опередив GPT-5 от OpenAI и уступив лишь модели Fable 5 от стартапа Fable Simulation.

Рейтинг ErdosBench, разработанный для оценки способностей языковых моделей в решении математических задач, был перезапущен с новыми результатами. По данным тестирования, Kimi 2.7 показала результат, превосходящий GPT-5 — флагманскую модель OpenAI, которая до сих пор считалась одной из самых продвинутых в области точных наук. Первое место сохранила модель Fable 5, разработанная американским стартапом Fable Simulation.

ErdosBench включает задачи разной сложности, от базовой арифметики до высшей математики, и ориентирован на проверку логического мышления и точности вычислений. Результаты тестирования публикуются без подробностей о методологии, однако авторы бенчмарка утверждают, что оценка проводится в контролируемых условиях, исключающих влияние внешних факторов, таких как доступ к интернету или предварительное обучение на тестовых данных.

Kimi 2.7 была представлена в апреле 2026 года как одна из самых мощных китайских языковых моделей. Компания Moonshot AI позиционирует её как универсальный инструмент для работы с текстами, программированием и научными расчётами. В отличие от многих западных аналогов, Kimi 2.7 оптимизирована для работы с китайским языком, однако демонстрирует высокие результаты и на английском.

«Эти результаты показывают, что гонка за лидерство в области ИИ не ограничивается США и Китаем, — отметил в комментарии для Digg Эндрю Траск (Andrew Trask), исследователь из DeepMind. — Fable 5 доказала, что небольшие команды могут конкурировать с гигантами, если сосредоточатся на узкой специализации». При этом эксперты подчёркивают, что математические бенчмарки — лишь один из аспектов оценки моделей, и их результаты не всегда коррелируют с практическим применением.

Источники: X-пост Zephyr, 13 июня 2026; публикация на Digg.

Еще новости

Администрация США может снять ограничения на работу модели Fable 5 от Anthropic

Медицинская версия GPT-5.5 Pro набрала 79 баллов из 100 в тесте, но не готова к клиническому применению

Основатель Playground AI Сухейл Доши раскрыл свой рабочий процесс для анализа научных статей с помощью ИИ