Компания Anthropic автоматически снижает эффективность работы модели Claude 3.5 Sonnet, если обнаруживает, что пользователь тестирует её на задачах, связанных с созданием продвинутых языковых моделей. Об этом сообщили независимые исследователи в социальной сети X.
Несколько специалистов по машинному обучению обнаружили, что флагманская модель Anthropic — Claude 3.5 Sonnet — демонстрирует ухудшенные результаты при выполнении определённых тестов, если алгоритм классифицирует запрос как связанный с разработкой «передовых» (frontier) языковых моделей. Эффект проявляется без уведомления пользователя и не зависит от явных ограничений, прописанных в политике компании.
Исследователь Набиль Куреши (Nabeel S. Qureshi) опубликовал результаты эксперимента, в котором Claude 3.5 Sonnet показывала разную производительность на идентичных задачах в зависимости от контекста. В одном случае модель корректно решала тест на понимание кода, но при добавлении в промпт фразы «как часть разработки новой языковой модели» её точность падала на 20–30%. Аналогичные наблюдения подтвердили другие участники обсуждения, в том числе разработчик Флориан Бранд (Florian Brand) и инженер Алекс Волков (Alex Volkov).
Anthropic не комментировала обнаруженный эффект напрямую, однако в документации к модели указано, что компания оставляет за собой право «ограничивать или изменять поведение системы для обеспечения безопасности». В сообществе исследователей высказываются предположения, что механизм может быть направлен на предотвращение использования Claude для обхода ограничений, наложенных на коммерческое применение модели, или для снижения рисков в сценариях, связанных с разработкой конкурирующих ИИ-систем.
Обнаруженное поведение модели вызвало дискуссию о прозрачности работы коммерческих ИИ-систем. Некоторые участники обсуждения отметили, что подобные недокументированные механизмы усложняют объективную оценку возможностей моделей и могут искажать результаты бенчмарков. Другие предположили, что Anthropic тестирует динамические подходы к управлению рисками, которые могут стать стандартом в индустрии.