# Cognition представила бенчмарк FrontierCode для оценки ИИ-моделей в сложных задачах разработки

> Стартап Cognition, создатель ИИ-ассистента Devin, выпустил открытый бенчмарк FrontierCode, разработанный совместно с мейнтейнерами крупных open-source-проектов для тестирования способности моделей поддерживать сложные программные системы.

- Canonical HTML: https://youragents.me/ru/media/news/cognition-predstavila-benchmark-frontiercode-dlja-ocenki-ii-modelej-v-slozhnyh-zadachah-razrabotki
- Markdown: https://youragents.me/ru/media/news/cognition-predstavila-benchmark-frontiercode-dlja-ocenki-ii-modelej-v-slozhnyh-zadachah-razrabotki.md
- Section: Новости
- Published: 2026-06-10T05:00:37+03:00
- Modified: 2026-06-10T05:00:37+03:00

Стартап Cognition, создатель ИИ-ассистента Devin, выпустил открытый бенчмарк FrontierCode, разработанный совместно с мейнтейнерами крупных open-source-проектов для тестирования способности моделей поддерживать сложные программные системы. Анонс состоялся 7 июня. 

Американский стартап Cognition, специализирующийся на разработке ИИ-инструментов для программистов, представил новый бенчмарк FrontierCode. Инструмент предназначен для оценки производительности языковых моделей в задачах, связанных с сопровождением и развитием крупных программных проектов. В отличие от существующих тестов, ориентированных на решение изолированных задач или генерацию кода по описанию, FrontierCode фокусируется на реальных сценариях: исправлении багов, добавлении функциональности и рефакторинге в условиях сложной кодовой базы.

Бенчмарк разработан при участии мейнтейнеров популярных open-source-проектов, включая React, Kubernetes и VS Code. Как отметил сооснователь Cognition Скотт Ву (Scott Wu), цель инициативы — «создать стандарт, который будет отражать реальные вызовы, с которыми сталкиваются разработчики, а не искусственные задачи, придуманные исследователями». В основу FrontierCode легли реальные пул-реквесты и баг-репорты из этих проектов, что позволяет оценивать модели не только по точности генерации кода, но и по способности понимать контекст, работать с зависимостями и предлагать решения, пригодные для интеграции в продакшен.

Публикация бенчмарка совпала с растущим интересом индустрии к оценке возможностей ИИ в долгосрочной поддержке программного обеспечения. Ранее Cognition уже привлекал внимание выпуском Devin — автономного ИИ-ассистента, способного выполнять задачи по разработке от постановки до деплоя. FrontierCode, по словам представителей компании, должен стать шагом к созданию более прозрачных и объективных метрик для сравнения моделей в этой области. Инструмент доступен на GitHub под открытой лицензией, что позволяет сообществу вносить собственные тестовые кейсы.

Вместе с бенчмарком Cognition опубликовал результаты тестирования нескольких ведущих моделей, включая собственную разработку. Данные показали, что даже самые продвинутые системы пока справляются с задачами FrontierCode на уровне junior-разработчиков, демонстрируя высокую точность в простых исправлениях, но часто ошибаясь в сложных сценариях, требующих глубокого понимания архитектуры проекта. «Это не провал моделей, а отражение того, насколько далеко нам ещё предстоит продвинуться», — прокомментировал результаты Виктор Таэлин (Victor Taelin), один из авторов бенчмарка.

Источники: X-пост Скотта Ву (Scott Wu), 7 июня; репозиторий FrontierCode на GitHub.
