# Cognition представила бенчмарк FrontierCode для оценки слияния кода ИИ-моделями

> Стартап Cognition, разработчик автономного ИИ-программиста Devin, запустил инструмент FrontierCode для оценки способности языковых моделей корректно объединять фрагменты кода.

- Canonical HTML: https://youragents.me/ru/media/news/cognition-predstavila-benchmark-frontiercode-dlja-ocenki-slijanija-koda-ii-modeljami
- Markdown: https://youragents.me/ru/media/news/cognition-predstavila-benchmark-frontiercode-dlja-ocenki-slijanija-koda-ii-modeljami.md
- Section: Новости
- Published: 2026-06-10T02:37:37+03:00
- Modified: 2026-06-10T02:37:37+03:00

Стартап Cognition, разработчик автономного ИИ-программиста Devin, запустил инструмент FrontierCode для оценки способности языковых моделей корректно объединять фрагменты кода. По результатам тестирования, модель Claude 3.5 Opus от Anthropic показала лучший результат — 13,5%. 

Компания Cognition, известная созданием автономного ИИ-ассистента для разработчиков Devin, анонсировала новый бенчмарк FrontierCode. Инструмент оценивает, насколько эффективно языковые модели способны объединять изменённые фрагменты кода в единую рабочую версию — задача, критически важная для автоматизации процессов разработки.

Тестирование охватило ведущие модели, включая решения от OpenAI, Google DeepMind и Anthropic. Лучший результат продемонстрировала Claude 3.5 Opus, набравшая 13,5% в пиковых показателях. Для сравнения: другие модели показали результаты ниже 10%, что подчёркивает сложность задачи даже для передовых систем. Как отметил сооснователь Cognition Скотт Ву (Scott Wu), «объединение кода — это не просто задача на понимание синтаксиса, а проверка способности модели учитывать контекст и зависимости между фрагментами».

FrontierCode использует набор из 1000 реальных примеров слияния кода из открытых репозиториев, что позволяет оценивать модели в условиях, приближенных к реальной разработке. Инструмент доступен в открытом доступе, что даёт возможность другим исследователям и компаниям проводить собственные тесты. В Cognition подчёркивают, что бенчмарк будет регулярно обновляться, чтобы соответствовать растущим возможностям ИИ-моделей.

Результаты тестирования вызвали дискуссию в сообществе разработчиков. Часть экспертов отмечает, что даже 13,5% — это низкий показатель для промышленного применения, в то время как другие считают FrontierCode важным шагом к стандартизации оценки ИИ-инструментов для программирования. В частности, инженер Google DeepMind Шейн Легг (Shane Legg) в своём комментарии указал, что подобные бенчмарки необходимы для объективного сравнения моделей.

Источники: X-пост Скотта Ву (Scott Wu), 8 июня 2026; блог Cognition.
