Новая версия языковой модели Claude Opus 4.8 от Anthropic показала результат 1,5% на тесте ARC-AGI-3, утроив предыдущий рекорд, установленный GPT-5.5. Об этом сообщили разработчики и независимые исследователи в социальной сети X.
Тест ARC-AGI-3, разработанный специалистом по глубокому обучению Франсуа Шолле (François Chollet), считается одним из ключевых бенчмарков для оценки способности моделей к абстрактному мышлению и обобщению. Предыдущий рекорд принадлежал модели GPT-5.5 от OpenAI, которая достигла результата 0,5%. Новый показатель Claude Opus 4.8, хотя и остаётся низким в абсолютных значениях, рассматривается как значительный шаг вперёд в развитии искусственного интеллекта.
Результаты были подтверждены независимыми исследователями, включая Грега Камрадта (Greg Kamradt) и Виктора Таэлина (Victor Taelin), которые провели собственные тесты. В своих постах они отметили, что модель продемонстрировала неожиданные способности к решению задач, требующих логического вывода и работы с абстрактными понятиями. «Это не просто улучшение метрик — модель действительно научилась лучше понимать структуру задач», — написал Таэлин.
Anthropic пока не опубликовала официального комментария по поводу результатов, однако в сообществе уже обсуждаются возможные причины прорыва. Среди гипотез — изменения в архитектуре модели, оптимизация обучения и использование новых наборов данных. Шолле в своём посте подчеркнул, что ARC-AGI-3 остаётся крайне сложным тестом, и даже небольшой прогресс на нём свидетельствует о серьёзных улучшениях в работе моделей.
Эксперты отмечают, что результаты Claude Opus 4.8 могут повлиять на стратегии разработки ИИ-систем, сместив акцент с генерации текста на решение задач, требующих креативности и адаптивности. В то же время остаётся открытым вопрос, насколько такие бенчмарки отражают реальные возможности моделей в прикладных сценариях.
Источники: X-посты Грега Камрадта, Виктора Таэлина, Франсуа Шолле, 1 июня 2026 года.