Новости 11:37, 4 мая 2026
Поделиться

Alibaba показала агента Metis, который почти перестал вызывать инструменты без необходимости

Alibaba показала агента Metis, который почти перестал вызывать инструменты без необходимости

Исследователи Alibaba предложили подход HDPO для обучения ИИ-агентов, которые лучше понимают, когда нужно пользоваться внешними инструментами, а когда достаточно собственных знаний модели. В результате Metis сократил долю лишних вызовов инструментов с 98% до 2%.

Проблема современных агентов в том, что они часто слишком охотно вызывают внешние инструменты — поиск, API, исполнение кода и другие сервисы. Это увеличивает задержку, стоимость и иногда даже ухудшает итоговый ответ из-за лишнего шума в контексте.  

Alibaba обучила мультимодальную модель Metis через Hierarchical Decoupled Policy Optimization. По данным VentureBeat, она не только резко сократила лишние вызовы инструментов, но и показала лучшие результаты в ряде reasoning-бенчмарков.  

Для агентных систем это важный сдвиг: полезный агент должен не просто уметь вызывать инструменты, а понимать, когда этого делать не нужно. Иначе автономность быстро превращается в дорогую, медленную и нестабильную цепочку лишних действий.