# Anthropic разработала модель, превышающую четырехчасовой порог на бенчмарке METR

> Старший сотрудник некоммерческой организации Rethink Priorities Питер Уайлдефорд (Peter Wildeford) заявил, что лаборатория Anthropic создала новую языковую модель, способную решать задачи на уровне, сопоставимом с четырехчасовым человеческим трудом по...

- Canonical HTML: https://youragents.me/ru/media/news/anthropic-razrabotala-model-prevyshajushhuju-chetyrehchasovoj-porog-na-benchmarke-metr
- Markdown: https://youragents.me/ru/media/news/anthropic-razrabotala-model-prevyshajushhuju-chetyrehchasovoj-porog-na-benchmarke-metr.md
- Section: Новости
- Published: 2026-06-23T06:37:36+03:00
- Modified: 2026-06-23T06:37:36+03:00

Старший сотрудник некоммерческой организации Rethink Priorities Питер Уайлдефорд (Peter Wildeford) заявил, что лаборатория Anthropic создала новую языковую модель, способную решать задачи на уровне, сопоставимом с четырехчасовым человеческим трудом по бенчмарку METR. Обсуждение тезиса началось в соцсети X после публикации аналитика Мэтью Бермана (Matthew Berman). 

Питер Уайлдефорд, директор по исследованиям долгосрочных рисков в Rethink Priorities, опубликовал в X пост, в котором утверждает, что Anthropic завершила обучение модели, преемницы Mythos. По его словам, новая система показывает результаты, эквивалентные более чем четырем часам работы человека по метрике METR — бенчмарку, оценивающему способность моделей решать сложные многоэтапные задачи.

Уайлдефорд не раскрыл технические детали модели, но отметил, что речь идет о «проекции» на основе внутренних тестов Anthropic. В своем посте он подчеркнул: «Это не означает, что модель идеальна или превосходит человека во всех аспектах, но это значимый шаг в оценке автономности систем». В комментариях к публикации другие исследователи отметили, что четырехчасовой порог METR считается важной вехой в развитии агентских возможностей ИИ.

Мэтью Берман, автор канала о технологиях искусственного интеллекта, первым привлек внимание к тезису Уайлдефорда, назвав его «возможно, самым важным обновлением в ИИ за последние месяцы». В своем посте Берман сослался на неофициальные источники в Anthropic, подтверждающие прогресс компании в обучении моделей с расширенными когнитивными способностями. При этом ни Anthropic, ни Rethink Priorities не опубликовали официальных комментариев по поводу заявлений Уайлдефорда.

Бенчмарк METR, разработанный некоммерческой организацией METR, оценивает производительность моделей в задачах, требующих планирования, адаптации и работы с инструментами. Предыдущие модели Anthropic, включая Mythos, показывали результаты, эквивалентные нескольким десяткам минут человеческого труда. Преодоление четырехчасового порога может указывать на качественный скачок в способности ИИ-систем выполнять длительные рабочие процессы без вмешательства человека.

Источники: X-пост Питера Уайлдефорда (Peter Wildeford), 21 июня 2026; X-пост Мэтью Бермана (Matthew Berman), 21 июня 2026.