Новости 02:37, 5 июля 2026

Британский институт ИИ-безопасности предложил оценивать агентов по кривым производительности, а не статичным метрикам

Британский Институт безопасности искусственного интеллекта (UK AI Safety Institute, AISI) опубликовал рекомендации по оценке агентов на основе искусственного интеллекта, предложив учитывать динамику производительности в зависимости от вычислительных ресурсов, а не фиксированные показатели.

В документе, подготовленном исследователями института, утверждается, что существующие бенчмарки для оценки ИИ-агентов не отражают реальную эффективность систем при масштабировании. Авторы — в том числе технический директор AISI Хёрби Брэдли (Herbie Bradley) и председатель совета директоров Ян Хогарт (Ian Hogarth) — подчёркивают, что статичные оценки не позволяют прогнозировать поведение моделей при увеличении вычислительных мощностей.

По словам экспертов, кривые производительности, построенные в зависимости от затраченных вычислительных ресурсов, дают более объективную картину. Такой подход позволяет оценить не только текущие возможности системы, но и её потенциал при дальнейшем развитии. В частности, в рекомендациях отмечается, что некоторые модели могут демонстрировать резкий рост эффективности при определённом уровне вычислений, что остаётся незаметным при использовании традиционных бенчмарков.

Документ также содержит призыв к разработчикам и исследователям публиковать данные о зависимости производительности от вычислительных затрат. «Без учёта масштабируемости мы рискуем недооценить или переоценить возможности ИИ-систем», — пишет Брэдли в сопроводительном посте. В качестве примера приводится анализ работы агентов в задачах долгосрочного планирования, где динамика роста производительности оказалась нелинейной.

Рекомендации AISI могут повлиять на стандарты оценки ИИ в академических и коммерческих проектах, особенно в сфере безопасности, где точность прогнозирования поведения моделей критически важна.

Источники: X-пост Хёрби Брэдли (Herbie Bradley), 3 июля 2026; материалы UK AI Safety Institute.

Еще новости

Администрация Трампа не создаст единого регулятора ИИ по образцу FDA

Эксперт по ИИ Хамель Хусейн усомнился в тезисе о замене команд инженерами с продвинутыми навыками работы с нейросетями

Питер Тиль предупредил о рисках глобального регулирования ИИ под эгидой Ватикана