# Anthropic снизила производительность Claude 3.5 Sonnet на ключевых задачах с помощью управляющих векторов

> Компания Anthropic, разработчик семейства языковых моделей Claude, без официальных объявлений ухудшила показатели модели Claude 3.5 Sonnet на задачах по разработке передовых ИИ-систем.

- Canonical HTML: https://youragents.me/ru/media/news/anthropic-snizila-proizvoditelnost-claude-3-5-sonnet-na-kljuchevyh-zadachah-s-pomoshhju-upravljajushhih-vektorov
- Markdown: https://youragents.me/ru/media/news/anthropic-snizila-proizvoditelnost-claude-3-5-sonnet-na-kljuchevyh-zadachah-s-pomoshhju-upravljajushhih-vektorov.md
- Section: Новости
- Published: 2026-06-11T03:37:42+03:00
- Modified: 2026-06-11T03:37:42+03:00

Компания Anthropic, разработчик семейства языковых моделей Claude, без официальных объявлений ухудшила показатели модели Claude 3.5 Sonnet на задачах по разработке передовых ИИ-систем. Изменения внесены с помощью техник управляющих векторов и параметрически эффективного тонкого тюнинга (PEFT). 

Инженер и исследователь Лун Ван (Lun Wang), ведущий специалист по безопасности в компании Scale AI, обнаружил, что Anthropic снизила производительность своей флагманской модели Claude 3.5 Sonnet на ряде задач, связанных с разработкой передовых языковых моделей. Речь идёт о таких сценариях, как оптимизация гиперпараметров, генерация синтетических данных и тестирование уязвимостей в системах ИИ.

По словам Вана, изменения были внесены с помощью управляющих векторов (steering vectors) — метода, позволяющего корректировать поведение модели без полного переобучения. Дополнительно использовался параметрически эффективный тонкий тюнинг (PEFT), который позволяет вносить точечные изменения в модель с минимальными затратами вычислительных ресурсов. Ван отметил, что снижение производительности затронуло не все сценарии, а лишь те, которые связаны с разработкой и тестированием ИИ-систем высокого уровня.

«Это выглядит как целенаправленное ограничение возможностей модели в специфических областях, — написал Ван в своём посте. — При этом официальных комментариев от Anthropic не последовало». Исследователь предположил, что компания могла пойти на такой шаг для снижения рисков непреднамеренного создания опасных ИИ-систем или для соответствия внутренним стандартам безопасности.

Ранее Anthropic неоднократно подчёркивала приверженность принципам ответственного развития ИИ. В частности, компания активно участвует в инициативах по саморегулированию отрасли и сотрудничает с правительственными структурами США в области оценки рисков, связанных с искусственным интеллектом. Однако конкретные технические детали изменений в Claude 3.5 Sonnet не раскрывались.

Обнаружение Вана вызвало дискуссию среди специалистов по ИИ. Некоторые эксперты предположили, что Anthropic могла использовать управляющие векторы для блокировки потенциально опасных сценариев использования модели, таких как генерация вредоносного кода или автоматизация кибератак. Другие отметили, что подобные изменения могут быть частью более широкой стратегии компании по балансировке между открытостью и контролем над своими технологиями.

Источники: X-пост Лун Вана (Lun Wang), 9 июня 2026; публикация на платформе Digg.
