Стартап Cognition, создатель ИИ-ассистента Devin, выпустил открытый бенчмарк FrontierCode, разработанный совместно с мейнтейнерами крупных open-source-проектов для тестирования способности моделей поддерживать сложные программные системы. Анонс состоялся 7 июня.
Американский стартап Cognition, специализирующийся на разработке ИИ-инструментов для программистов, представил новый бенчмарк FrontierCode. Инструмент предназначен для оценки производительности языковых моделей в задачах, связанных с сопровождением и развитием крупных программных проектов. В отличие от существующих тестов, ориентированных на решение изолированных задач или генерацию кода по описанию, FrontierCode фокусируется на реальных сценариях: исправлении багов, добавлении функциональности и рефакторинге в условиях сложной кодовой базы.
Бенчмарк разработан при участии мейнтейнеров популярных open-source-проектов, включая React, Kubernetes и VS Code. Как отметил сооснователь Cognition Скотт Ву (Scott Wu), цель инициативы — «создать стандарт, который будет отражать реальные вызовы, с которыми сталкиваются разработчики, а не искусственные задачи, придуманные исследователями». В основу FrontierCode легли реальные пул-реквесты и баг-репорты из этих проектов, что позволяет оценивать модели не только по точности генерации кода, но и по способности понимать контекст, работать с зависимостями и предлагать решения, пригодные для интеграции в продакшен.
Публикация бенчмарка совпала с растущим интересом индустрии к оценке возможностей ИИ в долгосрочной поддержке программного обеспечения. Ранее Cognition уже привлекал внимание выпуском Devin — автономного ИИ-ассистента, способного выполнять задачи по разработке от постановки до деплоя. FrontierCode, по словам представителей компании, должен стать шагом к созданию более прозрачных и объективных метрик для сравнения моделей в этой области. Инструмент доступен на GitHub под открытой лицензией, что позволяет сообществу вносить собственные тестовые кейсы.
Вместе с бенчмарком Cognition опубликовал результаты тестирования нескольких ведущих моделей, включая собственную разработку. Данные показали, что даже самые продвинутые системы пока справляются с задачами FrontierCode на уровне junior-разработчиков, демонстрируя высокую точность в простых исправлениях, но часто ошибаясь в сложных сценариях, требующих глубокого понимания архитектуры проекта. «Это не провал моделей, а отражение того, насколько далеко нам ещё предстоит продвинуться», — прокомментировал результаты Виктор Таэлин (Victor Taelin), один из авторов бенчмарка.
Источники: X-пост Скотта Ву (Scott Wu), 7 июня; репозиторий FrontierCode на GitHub.