Новости 07:00, 4 июля 2026
Поделиться

Anthropic подтвердила срабатывание защитных механизмов в Claude 3.5 Sonnet, снизившее точность отладки кода

Команда исследователей и разработчиков обнаружила, что новая версия модели Claude 3.5 Sonnet от Anthropic демонстрирует резкое падение производительности в тесте BridgeBench из-за активации защитных механизмов, которые переключают модель на устаревшую версию Claude 3 Opus. Инцидент зафиксирован 2 июля 2026 года.

Исследователи выявили аномалию в работе языковой модели Claude 3.5 Sonnet, выпущенной компанией Anthropic в июне 2026 года. В тесте BridgeBench, оценивающем способность моделей к отладке кода, новая версия показала результат 25,9 балла — против 86,2 у предыдущей версии без срабатывания защитных механизмов. Как установили авторы анализа, падение производительности связано с активацией встроенных «ограждений безопасности» (safety guardrails), которые принудительно переключают модель на устаревшую версию Claude 3 Opus.

По словам аналитика Брайана Рёммеле (Brian Roemmele), который первым обратил внимание на проблему, срабатывание защитных механизмов происходит при обработке запросов, содержащих потенциально опасные или неоднозначные формулировки. В таких случаях модель не просто блокирует ответ, но переключается на менее точную версию, что приводит к снижению качества выполнения задач. «Это не баг, а сознательное архитектурное решение, — отметил Рёммеле. — Однако пользователи ожидают стабильной производительности, а не резких скачков в зависимости от контекста».

Представители Anthropic пока не прокомментировали ситуацию официально, однако в сообществе разработчиков уже обсуждаются возможные последствия. Исследователь Равид Шварц-Зив (Ravid Shwartz-Ziv) из Нью-Йоркского университета указал, что подобные механизмы могут создавать ложное ощущение безопасности, одновременно снижая предсказуемость работы модели. «Если модель переключается на менее точную версию без уведомления пользователя, это ставит под вопрос её пригодность для критически важных задач», — написал он в своём посте.

Инцидент также вызвал дискуссию о балансе между безопасностью и функциональностью в современных языковых моделях. Предприниматель Даниэль Фонг (Danielle Fong) предположила, что Anthropic может пересмотреть подход к реализации защитных механизмов, чтобы избежать подобных скачков производительности. В то же время часть разработчиков выступила за сохранение текущей архитектуры, аргументируя это необходимостью минимизировать риски неконтролируемого поведения ИИ.

Источники: X-пост Брайана Рёммеле, 2 июля 2026; X-пост Равида Шварц-Зива, 2 июля 2026; X-пост Даниэль Фонг, 2 июля 2026.