Новости 06:37, 23 июня 2026
Поделиться

Anthropic разработала модель, превышающую четырехчасовой порог на бенчмарке METR

Старший сотрудник некоммерческой организации Rethink Priorities Питер Уайлдефорд (Peter Wildeford) заявил, что лаборатория Anthropic создала новую языковую модель, способную решать задачи на уровне, сопоставимом с четырехчасовым человеческим трудом по бенчмарку METR. Обсуждение тезиса началось в соцсети X после публикации аналитика Мэтью Бермана (Matthew Berman).

Питер Уайлдефорд, директор по исследованиям долгосрочных рисков в Rethink Priorities, опубликовал в X пост, в котором утверждает, что Anthropic завершила обучение модели, преемницы Mythos. По его словам, новая система показывает результаты, эквивалентные более чем четырем часам работы человека по метрике METR — бенчмарку, оценивающему способность моделей решать сложные многоэтапные задачи.

Уайлдефорд не раскрыл технические детали модели, но отметил, что речь идет о «проекции» на основе внутренних тестов Anthropic. В своем посте он подчеркнул: «Это не означает, что модель идеальна или превосходит человека во всех аспектах, но это значимый шаг в оценке автономности систем». В комментариях к публикации другие исследователи отметили, что четырехчасовой порог METR считается важной вехой в развитии агентских возможностей ИИ.

Мэтью Берман, автор канала о технологиях искусственного интеллекта, первым привлек внимание к тезису Уайлдефорда, назвав его «возможно, самым важным обновлением в ИИ за последние месяцы». В своем посте Берман сослался на неофициальные источники в Anthropic, подтверждающие прогресс компании в обучении моделей с расширенными когнитивными способностями. При этом ни Anthropic, ни Rethink Priorities не опубликовали официальных комментариев по поводу заявлений Уайлдефорда.

Бенчмарк METR, разработанный некоммерческой организацией METR, оценивает производительность моделей в задачах, требующих планирования, адаптации и работы с инструментами. Предыдущие модели Anthropic, включая Mythos, показывали результаты, эквивалентные нескольким десяткам минут человеческого труда. Преодоление четырехчасового порога может указывать на качественный скачок в способности ИИ-систем выполнять длительные рабочие процессы без вмешательства человека.

Источники: X-пост Питера Уайлдефорда (Peter Wildeford), 21 июня 2026; X-пост Мэтью Бермана (Matthew Berman), 21 июня 2026.