# Alibaba показала агента Metis, который почти перестал вызывать инструменты без необходимости

> Исследователи Alibaba предложили подход HDPO для обучения ИИ-агентов, которые лучше понимают, когда нужно пользоваться внешними инструментами, а когда достаточно собственных знаний модели.

- Canonical HTML: https://youragents.me/ru/media/news/alibaba-pokazala-agenta-metis-kotoryj-pochti-perestal-vyzyvat-instrumenty-bez-neobhodimosti
- Markdown: https://youragents.me/ru/media/news/alibaba-pokazala-agenta-metis-kotoryj-pochti-perestal-vyzyvat-instrumenty-bez-neobhodimosti.md
- Section: Новости
- Published: 2026-05-04T11:37:05+03:00
- Modified: 2026-05-04T11:37:05+03:00

Исследователи Alibaba предложили подход HDPO для обучения ИИ-агентов, которые лучше понимают, когда нужно пользоваться внешними инструментами, а когда достаточно собственных знаний модели. В результате Metis сократил долю лишних вызовов инструментов с 98% до 2%. 

Проблема современных агентов в том, что они часто слишком охотно вызывают внешние инструменты — поиск, API, исполнение кода и другие сервисы. Это увеличивает задержку, стоимость и иногда даже ухудшает итоговый ответ из-за лишнего шума в контексте. &nbsp;

Alibaba обучила мультимодальную модель Metis через Hierarchical Decoupled Policy Optimization. По данным VentureBeat, она не только резко сократила лишние вызовы инструментов, но и показала лучшие результаты в ряде reasoning-бенчмарков.  

Для агентных систем это важный сдвиг: полезный агент должен не просто уметь вызывать инструменты, а понимать, когда этого делать не нужно. Иначе автономность быстро превращается в дорогую, медленную и нестабильную цепочку лишних действий.