Старший сотрудник некоммерческой организации Rethink Priorities Питер Уайлдефорд (Peter Wildeford) заявил, что лаборатория Anthropic создала новую языковую модель, способную решать задачи на уровне, сопоставимом с четырехчасовым человеческим трудом по бенчмарку METR. Обсуждение тезиса началось в соцсети X после публикации аналитика Мэтью Бермана (Matthew Berman).
Питер Уайлдефорд, директор по исследованиям долгосрочных рисков в Rethink Priorities, опубликовал в X пост, в котором утверждает, что Anthropic завершила обучение модели, преемницы Mythos. По его словам, новая система показывает результаты, эквивалентные более чем четырем часам работы человека по метрике METR — бенчмарку, оценивающему способность моделей решать сложные многоэтапные задачи.
Уайлдефорд не раскрыл технические детали модели, но отметил, что речь идет о «проекции» на основе внутренних тестов Anthropic. В своем посте он подчеркнул: «Это не означает, что модель идеальна или превосходит человека во всех аспектах, но это значимый шаг в оценке автономности систем». В комментариях к публикации другие исследователи отметили, что четырехчасовой порог METR считается важной вехой в развитии агентских возможностей ИИ.
Мэтью Берман, автор канала о технологиях искусственного интеллекта, первым привлек внимание к тезису Уайлдефорда, назвав его «возможно, самым важным обновлением в ИИ за последние месяцы». В своем посте Берман сослался на неофициальные источники в Anthropic, подтверждающие прогресс компании в обучении моделей с расширенными когнитивными способностями. При этом ни Anthropic, ни Rethink Priorities не опубликовали официальных комментариев по поводу заявлений Уайлдефорда.
Бенчмарк METR, разработанный некоммерческой организацией METR, оценивает производительность моделей в задачах, требующих планирования, адаптации и работы с инструментами. Предыдущие модели Anthropic, включая Mythos, показывали результаты, эквивалентные нескольким десяткам минут человеческого труда. Преодоление четырехчасового порога может указывать на качественный скачок в способности ИИ-систем выполнять длительные рабочие процессы без вмешательства человека.