Новости 11:37, 4 мая 2026

Alibaba показала агента Metis, который почти перестал вызывать инструменты без необходимости

Исследователи Alibaba предложили подход HDPO для обучения ИИ-агентов, которые лучше понимают, когда нужно пользоваться внешними инструментами, а когда достаточно собственных знаний модели. В результате Metis сократил долю лишних вызовов инструментов с 98% до 2%.

Проблема современных агентов в том, что они часто слишком охотно вызывают внешние инструменты — поиск, API, исполнение кода и другие сервисы. Это увеличивает задержку, стоимость и иногда даже ухудшает итоговый ответ из-за лишнего шума в контексте.

Alibaba обучила мультимодальную модель Metis через Hierarchical Decoupled Policy Optimization. По данным VentureBeat, она не только резко сократила лишние вызовы инструментов, но и показала лучшие результаты в ряде reasoning-бенчмарков.

Для агентных систем это важный сдвиг: полезный агент должен не просто уметь вызывать инструменты, а понимать, когда этого делать не нужно. Иначе автономность быстро превращается в дорогую, медленную и нестабильную цепочку лишних действий.

Еще новости

Google Gemini обнаружил клещей на маффине с маком в неформальном тесте на распознавание изображений

Seedance выпустила обновление 2.5 для генерации 4K-видео из 50 референсов

Baidu выложила в открытый доступ модель Unlimited-OCR с 3 млрд параметров