Исследовательские организации Epoch AI и METR запустили инструмент MirrorCode, предназначенный для тестирования способности ИИ-агентов выполнять сложные программные проекты на протяжении нескольких недель. Об этом сообщили представители инициативы в социальных сетях.
Проект MirrorCode разработан для оценки возможностей искусственного интеллекта в долгосрочных задачах программной инженерии, требующих планирования, координации и выполнения многоэтапных процессов. Инструмент моделирует реальные сценарии разработки, включая работу с кодовыми базами, отладку и взаимодействие с внешними системами.
По словам авторов инициативы, существующие бенчмарки для оценки ИИ-агентов ограничены краткосрочными задачами, тогда как MirrorCode фокусируется на «горизонтах планирования» от нескольких дней до недель. Это позволяет тестировать способность моделей поддерживать согласованность действий на протяжении длительных периодов, что критически важно для автономных систем.
В числе ключевых участников проекта — исследователи из Epoch AI, организации, занимающейся анализом долгосрочных тенденций развития ИИ, и METR (ранее ARC Evals), специализирующейся на оценке рисков, связанных с искусственным интеллектом. Как отметил один из разработчиков, Дэниел Кокотайло (Daniel Kokotajlo), MirrorCode «позволяет выявить фундаментальные ограничения современных агентов в задачах, требующих стратегического мышления».
Инструмент доступен в открытом доступе, однако подробности о методологии и первых результатах тестирования пока не раскрываются. Ожидается, что MirrorCode станет частью более широкой экосистемы бенчмарков для оценки продвинутых ИИ-систем.