# Anthropic представила модель Claude 3.5 Fable с рекордным результатом в тесте для инженеров

> Компания Anthropic выпустила новую версию языковой модели Claude 3.5 Fable, которая, по её данным, набрала 91 из 100 баллов в внутреннем бенчмарке для оценки навыков программирования старших инженеров.

- Canonical HTML: https://youragents.me/ru/media/news/anthropic-predstavila-model-claude-3-5-fable-s-rekordnym-rezultatom-v-teste-dlja-inzhenerov
- Markdown: https://youragents.me/ru/media/news/anthropic-predstavila-model-claude-3-5-fable-s-rekordnym-rezultatom-v-teste-dlja-inzhenerov.md
- Section: Новости
- Published: 2026-06-10T20:37:37+03:00
- Modified: 2026-06-10T20:37:37+03:00

Компания Anthropic выпустила новую версию языковой модели Claude 3.5 Fable, которая, по её данным, набрала 91 из 100 баллов в внутреннем бенчмарке для оценки навыков программирования старших инженеров. Обновление было анонсировано 9 июня без подробностей о методологии тестирования. 

Anthropic обновила линейку своих моделей, представив Claude 3.5 Fable — версию, оптимизированную для решения сложных технических задач. В компании утверждают, что модель показала результат 91% в специализированном тесте, разработанном для оценки компетенций старших инженеров-программистов. Это первый случай, когда Anthropic публично раскрывает данные по такому бенчмарку, однако детали его структуры и критериев оценки не приводятся.

Ранее в отрасли уже возникали вопросы к достоверности внутренних тестов разработчиков ИИ-моделей. Например, в марте 2026 года Google DeepMind признала, что часть результатов в её бенчмарках была завышена из-за некорректной выборки данных. Представители Anthropic пока не комментировали, планируется ли независимая верификация заявленных показателей.

Модель Claude 3.5 Fable позиционируется как инструмент для автоматизации рутинных задач в разработке, включая рефакторинг кода, написание документации и отладку. В блоге компании отмечается, что новая версия также улучшила понимание контекста в длинных технических диалогах, что может быть востребовано в корпоративном сегменте.

По словам аналитиков, успех модели в узкоспециализированных тестах не гарантирует её эффективности в реальных рабочих сценариях. «91% — впечатляющий показатель, но без прозрачной методологии это остаётся маркетинговым заявлением», — написал в X независимый исследователь Саймон Уиллисон (Simon Willison), ранее работавший в Mozilla и Eventbrite.

Источники: X-пост Дэн Шиппер (Dan Shipper), 9 июня; блог Anthropic.