Новости 23:37, 27 июня 2026

Новый бенчмарк OSWorld 2.0 показал лидерство Claude Opus в задачах долгосрочного взаимодействия с компьютером

Исследовательская группа XLangNLP представила обновлённую версию бенчмарка OSWorld 2.0 для оценки агентов, способных выполнять сложные многоэтапные задачи на компьютере. Лучший результат — 20,6% точности — показала модель Claude Opus от Anthropic.

Команда XLangNLP, объединяющая специалистов из Университета Южной Калифорнии, Университета штата Огайо и Калифорнийского университета в Санта-Барбаре, опубликовала результаты тестирования моделей искусственного интеллекта на новом бенчмарке OSWorld 2.0. Этот инструмент предназначен для оценки способности ИИ-агентов решать задачи, требующие последовательного взаимодействия с операционной системой и приложениями — например, редактирования документов, работы с таблицами или настройки программного обеспечения.

В отличие от предыдущей версии, OSWorld 2.0 включает более сложные сценарии с увеличенным горизонтом планирования и необходимостью адаптации к динамически меняющимся условиям. Как отмечают авторы бенчмарка, даже лучшая из протестированных моделей — Claude Opus 3.5 от Anthropic — справилась лишь с 20,6% заданий. Для сравнения: модели GPT-4o и Gemini 1.5 Pro продемонстрировали точность на уровне 15,1% и 12,3% соответственно.

«Эти результаты подчёркивают, насколько далеко ещё до создания ИИ-агентов, способных надёжно выполнять повседневные компьютерные задачи», — заявил Лун Ван (Lun Wang), один из ведущих исследователей проекта. По его словам, основные трудности связаны с необходимостью долгосрочного планирования, обработки неструктурированных данных и адаптации к неожиданным изменениям в интерфейсе.

Результаты тестирования опубликованы в сопроводительном техническом отчёте, доступном на платформе arXiv. Авторы бенчмарка также открыли исходный код OSWorld 2.0 для независимой проверки и дальнейшего развития.

Источники: X-пост Тао Ю (Tao Yu), 26 июня 2026; технический отчёт XLangNLP.

Еще новости

Эксперты предупреждают: новые флагманские модели ИИ могут не выйти в публичный доступ

Разработчик OpenClaw потребовал от контрибьюторов раскрывать историю промптов для фильтрации ИИ-пулл-реквестов

Microsoft и Applied Compute призвали компании создавать собственные бенчмарки для ИИ