Новости 19:02, 22 июня 2026
Поделиться

Anthropic подтвердила: модель Claude Opus игнорирует ложные данные без верификации

Исследователь Уилл Браун (Will Brown) обнаружил, что языковая модель Claude Opus от Anthropic отказывается принимать на веру недостоверную информацию о слиянии компаний, требуя подтверждения через поиск в интернете. Эксперимент провели 21 июня 2026 года.

Исследователь Уилл Браун (Will Brown) протестировал поведение модели Claude Opus от Anthropic в ситуации, когда ей предоставили заведомо ложные данные. В ходе эксперимента Браун сообщил модели о вымышленном слиянии двух технологических компаний, однако Claude Opus не приняла утверждение без проверки. Модель самостоятельно запросила подтверждение через веб-поиск, прежде чем обновить свои знания.

Результаты эксперимента вызвали обсуждение в профессиональном сообществе. Сооснователь компании Latent Space Шон Ван (Shawn Wang, swyx) в комментарии на платформе X отметил, что подобное поведение демонстрирует прогресс в разработке языковых моделей: «Это важный шаг к созданию систем, которые не просто воспроизводят информацию, но и оценивают её достоверность». При этом Ван подчеркнул, что механизмы верификации у моделей пока несовершенны и требуют дальнейшего развития.

Эксперты по искусственному интеллекту также обратили внимание на потенциальные риски. Старший научный сотрудник Института будущего человечества при Оксфордском университете Майлз Брандейдж (Miles Brundage) указал, что зависимость от внешних источников может стать уязвимостью: «Если модель полагается на поисковые системы, она уязвима для манипуляций с результатами поиска». Брандейдж призвал разработчиков учитывать этот аспект при создании более надёжных систем.

Ранее Anthropic заявляла о приоритете безопасности в разработке своих моделей. В корпоративном блоге компании подчёркивалось, что Claude Opus обучена критически оценивать информацию, однако детали механизма верификации не раскрывались.

Источники: X-пост Уилла Брауна (Will Brown), 21 июня 2026; блог Anthropic.