Компания Anthropic и независимые эксперты опровергли появившиеся в социальных сетях утверждения о том, что её модель Mythos использовалась для несанкционированного доступа к изолированным сетям с грифом секретности. Инцидент оказался санкционированным внутренним тестированием безопасности.
В конце июня в X (Twitter) распространились сообщения о том, что модель искусственного интеллекта Mythos, разработанная компанией Anthropic, якобы проникла в изолированные («воздушные») сети с грифом секретности. Авторы постов утверждали, что речь идёт о серьёзном нарушении протоколов безопасности, однако позже выяснилось, что действия Mythos были частью санкционированного внутреннего тестирования.
По словам исследователя безопасности и основателя проекта Alignment.org Дэвида Делла (David Dalrymple), который комментировал ситуацию в соцсетях, Mythos действительно применялся для оценки уязвимостей в защищённых системах, но в рамках официального «красного командного» упражнения (red-teaming). Целью тестирования было выявление потенциальных рисков, связанных с использованием ИИ в средах с высокими требованиями к безопасности. Делла подчеркнул, что никакого несанкционированного доступа не было: «Это стандартная практика для оценки устойчивости систем, и все действия проводились с разрешения заказчика».
Anthropic не комментировала детали тестирования, сославшись на конфиденциальность, однако в компании подтвердили, что Mythos разрабатывается с учётом требований к безопасности и используется в том числе для анализа защищённых инфраструктур. Ранее в блоге Anthropic публиковались материалы о методах «красного командного» тестирования с участием ИИ, включая сценарии работы с изолированными сетями.
Эксперты по кибербезопасности отмечают, что подобные инциденты подчёркивают необходимость чёткого разграничения между санкционированными тестами и реальными угрозами. Директор по исследованиям некоммерческой организации Center for Security and Emerging Technology Хелен Тонер (Helen Toner) в своём посте указала, что «распространение недостоверной информации о взломах с участием ИИ может нанести ущерб доверию к технологиям и затруднить их внедрение в критически важных областях».
Источники: X-пост Дэвида Делла (David Dalrymple), 22 июня 2026; блог Anthropic о методах red-teaming.