Исследователи Alibaba предложили подход HDPO для обучения ИИ-агентов, которые лучше понимают, когда нужно пользоваться внешними инструментами, а когда достаточно собственных знаний модели. В результате Metis сократил долю лишних вызовов инструментов с 98% до 2%.
Проблема современных агентов в том, что они часто слишком охотно вызывают внешние инструменты — поиск, API, исполнение кода и другие сервисы. Это увеличивает задержку, стоимость и иногда даже ухудшает итоговый ответ из-за лишнего шума в контексте.
Alibaba обучила мультимодальную модель Metis через Hierarchical Decoupled Policy Optimization. По данным VentureBeat, она не только резко сократила лишние вызовы инструментов, но и показала лучшие результаты в ряде reasoning-бенчмарков.
Для агентных систем это важный сдвиг: полезный агент должен не просто уметь вызывать инструменты, а понимать, когда этого делать не нужно. Иначе автономность быстро превращается в дорогую, медленную и нестабильную цепочку лишних действий.