# Исследователь ИИ Дон Сонг представила бенчмарк для агентов с результатом топ-моделей ниже 2,6%

> Профессор Калифорнийского университета в Беркли Дон Сонг (Dawn Song) опубликовала бенчмарк «Agents’ Last Exam», в котором ведущие языковые модели показали точность менее 2,6%.

- Canonical HTML: https://youragents.me/ru/media/news/issledovatel-ii-don-song-predstavila-benchmark-dlja-agentov-s-rezultatom-top-modelej-nizhe-2-6
- Markdown: https://youragents.me/ru/media/news/issledovatel-ii-don-song-predstavila-benchmark-dlja-agentov-s-rezultatom-top-modelej-nizhe-2-6.md
- Section: Новости
- Published: 2026-06-13T02:37:34+03:00
- Modified: 2026-06-13T02:37:34+03:00

Профессор Калифорнийского университета в Беркли Дон Сонг (Dawn Song) опубликовала бенчмарк «Agents’ Last Exam», в котором ведущие языковые модели показали точность менее 2,6%. Тест оценивает способность ИИ-агентов выполнять сложные многоэтапные задачи в реальных сценариях. 

Дон Сонг, профессор Калифорнийского университета в Беркли и основатель компании Oasis Labs, специализирующейся на безопасности ИИ, разработала новый бенчмарк для оценки возможностей автономных агентов на базе языковых моделей. Тест «Agents’ Last Exam» состоит из 100 задач, требующих планирования, взаимодействия с внешними инструментами и адаптации к динамическим условиям — например, бронирования билетов с учётом изменяющихся расписаний или управления финансовыми транзакциями.

По данным Сонг, даже самые продвинутые модели, включая GPT-4o и Claude 3.5 Sonnet, не преодолели порог в 2,6% правильных решений. Для сравнения: случайный выбор даёт точность около 1%. Исследователь подчёркивает, что текущие агенты справляются с простыми инструкциями, но терпят неудачу при необходимости долгосрочного планирования или корректировки действий в ответ на внешние изменения. «Это не просто ошибки в коде — модели не понимают причинно-следственные связи в реальном мире», — отметила Сонг в сопроводительном блоге.

Бенчмарк уже вызвал дискуссию среди разработчиков ИИ. Сооснователь компании Snorkel AI Алекс Ратнер (Alex Ratner) назвал результаты «тревожным сигналом» для индустрии, указывающим на фундаментальные ограничения современных архитектур. В то же время исследователь из Meta Ноам Браун (Noam Brown) предположил, что низкие показатели могут быть связаны с чрезмерной сложностью задач, а не с принципиальной неспособностью моделей к планированию.

«Agents’ Last Exam» доступен в открытом доступе на платформе GitHub. Сонг планирует регулярно обновлять тест, добавляя новые сценарии и ужесточая критерии оценки. По её словам, бенчмарк должен стать стандартом для измерения прогресса в разработке автономных агентов.

Источники: X-пост Дон Сонг (Dawn Song), 10 июня 2026; блог Oasis Labs.
