Новости 01:00, 28 июня 2026

Epoch AI и METR представили MirrorCode для оценки ИИ-агентов в долгосрочных задачах разработки

Исследовательские организации Epoch AI и METR запустили инструмент MirrorCode, предназначенный для тестирования способности ИИ-агентов выполнять сложные программные проекты на протяжении нескольких недель. Об этом сообщили представители инициативы в социальных сетях.

Проект MirrorCode разработан для оценки возможностей искусственного интеллекта в долгосрочных задачах программной инженерии, требующих планирования, координации и выполнения многоэтапных процессов. Инструмент моделирует реальные сценарии разработки, включая работу с кодовыми базами, отладку и взаимодействие с внешними системами.

По словам авторов инициативы, существующие бенчмарки для оценки ИИ-агентов ограничены краткосрочными задачами, тогда как MirrorCode фокусируется на «горизонтах планирования» от нескольких дней до недель. Это позволяет тестировать способность моделей поддерживать согласованность действий на протяжении длительных периодов, что критически важно для автономных систем.

В числе ключевых участников проекта — исследователи из Epoch AI, организации, занимающейся анализом долгосрочных тенденций развития ИИ, и METR (ранее ARC Evals), специализирующейся на оценке рисков, связанных с искусственным интеллектом. Как отметил один из разработчиков, Дэниел Кокотайло (Daniel Kokotajlo), MirrorCode «позволяет выявить фундаментальные ограничения современных агентов в задачах, требующих стратегического мышления».

Инструмент доступен в открытом доступе, однако подробности о методологии и первых результатах тестирования пока не раскрываются. Ожидается, что MirrorCode станет частью более широкой экосистемы бенчмарков для оценки продвинутых ИИ-систем.

Источники: X-посты Дэниела Кокотайло (Daniel Kokotajlo), Артура Конми (Arthur Conmy), Криса Пейнтера (Chris Painter); блог Epoch AI и METR.

Еще новости

OpenAI представила ограниченный доступ к моделям GPT-5.6 для задач программирования и кибербезопасности

Инвестор Дэвид Сакс предупредил о переезде технологических лидеров из Калифорнии в Техас из-за налога на миллиардеров

Эксперты предупреждают: новые флагманские модели ИИ могут не выйти в публичный доступ