# Белый дом и Anthropic разработают единую шкалу оценки уязвимостей ИИ-моделей

> Администрация президента США и компания Anthropic договорились о создании стандартизированной технической методики для оценки тяжести «джейлбрейков» — способов обхода встроенных ограничений в системах искусственного интеллекта.

- Canonical HTML: https://youragents.me/ru/media/news/belyj-dom-i-anthropic-razrabotajut-edinuju-shkalu-ocenki-ujazvimostej-ii-modelej
- Markdown: https://youragents.me/ru/media/news/belyj-dom-i-anthropic-razrabotajut-edinuju-shkalu-ocenki-ujazvimostej-ii-modelej.md
- Section: Новости
- Published: 2026-06-19T22:00:34+03:00
- Modified: 2026-06-19T22:00:34+03:00

Администрация президента США и компания Anthropic договорились о создании стандартизированной технической методики для оценки тяжести «джейлбрейков» — способов обхода встроенных ограничений в системах искусственного интеллекта. Работа над проектом началась в июне 2026 года. 

Администрация Белого дома и разработчик ИИ-моделей Anthropic запустили совместный проект по созданию унифицированной системы оценки уязвимостей больших языковых моделей. Речь идёт о разработке шкалы, которая позволит измерять тяжесть «джейлбрейков» — методов, позволяющих обходить встроенные в ИИ этические и технические ограничения.

По словам представителей Anthropic, инициатива направлена на повышение прозрачности и безопасности развёртывания ИИ-систем. В компании подчёркивают, что отсутствие единых критериев оценки уязвимостей затрудняет сравнение моделей разных производителей и замедляет разработку защитных механизмов. «Стандартизированная шкала поможет регуляторам и разработчикам оперативно реагировать на новые угрозы», — отметил технический директор Anthropic Джек Кларк (Jack Clark).

Проект курирует Управление научно-технической политики Белого дома (OSTP) при участии Национального института стандартов и технологий (NIST). В рамках сотрудничества планируется провести серию тестов на устойчивость моделей к различным типам атак, включая социальную инженерию и технические уязвимости. Результаты работы будут опубликованы в открытом доступе.

Эксперты по кибербезопасности уже высказали поддержку инициативе. Бывший директор по безопасности Facebook Алекс Стамос (Alex Stamos) назвал проект «важным шагом к созданию культуры ответственного развития ИИ». В то же время некоторые исследователи отмечают, что любая шкала оценки рисков неизбежно будет субъективной и потребует постоянного обновления по мере развития технологий.

Источники: X-пост Эндрю Каррана (Andrew Curran), 18 июня 2026; блог Digg.