Компания Anthropic выпустила новую версию языковой модели Claude 3.5 Fable, которая, по её данным, набрала 91 из 100 баллов в внутреннем бенчмарке для оценки навыков программирования старших инженеров. Обновление было анонсировано 9 июня без подробностей о методологии тестирования.
Anthropic обновила линейку своих моделей, представив Claude 3.5 Fable — версию, оптимизированную для решения сложных технических задач. В компании утверждают, что модель показала результат 91% в специализированном тесте, разработанном для оценки компетенций старших инженеров-программистов. Это первый случай, когда Anthropic публично раскрывает данные по такому бенчмарку, однако детали его структуры и критериев оценки не приводятся.
Ранее в отрасли уже возникали вопросы к достоверности внутренних тестов разработчиков ИИ-моделей. Например, в марте 2026 года Google DeepMind признала, что часть результатов в её бенчмарках была завышена из-за некорректной выборки данных. Представители Anthropic пока не комментировали, планируется ли независимая верификация заявленных показателей.
Модель Claude 3.5 Fable позиционируется как инструмент для автоматизации рутинных задач в разработке, включая рефакторинг кода, написание документации и отладку. В блоге компании отмечается, что новая версия также улучшила понимание контекста в длинных технических диалогах, что может быть востребовано в корпоративном сегменте.
По словам аналитиков, успех модели в узкоспециализированных тестах не гарантирует её эффективности в реальных рабочих сценариях. «91% — впечатляющий показатель, но без прозрачной методологии это остаётся маркетинговым заявлением», — написал в X независимый исследователь Саймон Уиллисон (Simon Willison), ранее работавший в Mozilla и Eventbrite.
Источники: X-пост Дэн Шиппер (Dan Shipper), 9 июня; блог Anthropic.