Исследовательская группа XLangNLP представила обновлённую версию бенчмарка OSWorld 2.0 для оценки агентов, способных выполнять сложные многоэтапные задачи на компьютере. Лучший результат — 20,6% точности — показала модель Claude Opus от Anthropic.
Команда XLangNLP, объединяющая специалистов из Университета Южной Калифорнии, Университета штата Огайо и Калифорнийского университета в Санта-Барбаре, опубликовала результаты тестирования моделей искусственного интеллекта на новом бенчмарке OSWorld 2.0. Этот инструмент предназначен для оценки способности ИИ-агентов решать задачи, требующие последовательного взаимодействия с операционной системой и приложениями — например, редактирования документов, работы с таблицами или настройки программного обеспечения.
В отличие от предыдущей версии, OSWorld 2.0 включает более сложные сценарии с увеличенным горизонтом планирования и необходимостью адаптации к динамически меняющимся условиям. Как отмечают авторы бенчмарка, даже лучшая из протестированных моделей — Claude Opus 3.5 от Anthropic — справилась лишь с 20,6% заданий. Для сравнения: модели GPT-4o и Gemini 1.5 Pro продемонстрировали точность на уровне 15,1% и 12,3% соответственно.
«Эти результаты подчёркивают, насколько далеко ещё до создания ИИ-агентов, способных надёжно выполнять повседневные компьютерные задачи», — заявил Лун Ван (Lun Wang), один из ведущих исследователей проекта. По его словам, основные трудности связаны с необходимостью долгосрочного планирования, обработки неструктурированных данных и адаптации к неожиданным изменениям в интерфейсе.
Результаты тестирования опубликованы в сопроводительном техническом отчёте, доступном на платформе arXiv. Авторы бенчмарка также открыли исходный код OSWorld 2.0 для независимой проверки и дальнейшего развития.
Источники: X-пост Тао Ю (Tao Yu), 26 июня 2026; технический отчёт XLangNLP.