Новости 23:00, 13 июня 2026
Поделиться

Claude 3.5 Fable обошёл OpenAI в математическом бенчмарке FrontierMath

Новая версия языковой модели Anthropic — Claude 3.5 Fable — набрала 88% в тесте FrontierMath Tier 4, впервые опередив модели OpenAI по этому показателю. Результаты были опубликованы исследователями и сотрудниками компании 12 июня.

Anthropic представила обновлённую версию своей флагманской модели — Claude 3.5 Fable, которая продемонстрировала рекордные результаты в математическом бенчмарке FrontierMath Tier 4. По данным, опубликованным в соцсетях, модель набрала 88% правильных ответов, превзойдя аналогичные показатели моделей OpenAI, которые ранее лидировали в этом тесте.

FrontierMath Tier 4 — один из наиболее сложных тестов для оценки способности ИИ решать задачи по высшей математике, включая доказательства, алгебру и теорию чисел. Ранее лучшие результаты в этом бенчмарке показывали модели OpenAI, однако Claude 3.5 Fable стала первой, преодолевшей отметку в 85%. Как отметил в своём посте сотрудник Anthropic Нэт МакАлис (Nat McAleese), этот результат подтверждает прогресс в развитии «разумных» моделей, способных не только генерировать текст, но и решать абстрактные задачи.

Ранее в этом году Anthropic уже демонстрировала успехи в других бенчмарках, включая тесты на понимание контекста и генерацию кода. Однако прорыв в математике считается особенно значимым, так как требует от модели не только логического мышления, но и способности к абстракции. «Это не просто ещё один шаг вперёд — это качественный скачок», — написал в комментарии к результатам исследователь Дэн Рой (Dan Roy), ранее работавший в OpenAI.

Результаты тестирования были опубликованы в открытом доступе на платформе Digg, а также прокомментированы независимыми экспертами. В частности, профессор Уортонской школы бизнеса Итан Моллик (Ethan Mollick) отметил, что такие достижения могут ускорить внедрение ИИ в научные исследования, где математические вычисления играют ключевую роль.

Источники: X-пост Нэта МакАлиса (Nat McAleese), 12 июня; публикация на Digg.