Модель Anthropic Claude 3.5 Fable автоматически отклоняет ряд нейтральных запросов, связанных с биологией и кибербезопасностью, заставляя пользователей возвращаться к предыдущей версии Opus 4.8. Об этом сообщили разработчики и исследователи в социальной сети X.
Проблема с фильтрами безопасности в новой модели Anthropic стала предметом обсуждения после публикаций нескольких специалистов в области ИИ и биотехнологий. По их словам, Claude 3.5 Fable, представленная в начале июня, чрезмерно строго интерпретирует правила безопасности, блокируя даже те запросы, которые не несут потенциальной угрозы.
Так, исследователь Танishк Мэтью Абрахам (Tanishq Mathew Abraham), основатель стартапа EarlySci, отметил, что модель отказывается выполнять задачи, связанные с анализом белковых последовательностей или базовыми вопросами по молекулярной биологии. «Система воспринимает любой запрос о структуре ДНК как попытку создать биологическое оружие, хотя речь идёт о стандартных учебных задачах», — написал он. Аналогичные ограничения коснулись и запросов по кибербезопасности: например, модель блокирует вопросы о методах шифрования или уязвимостях в коде, если они не сопровождаются явным контекстом образовательных целей.
Представители Anthropic пока не прокомментировали ситуацию официально, однако в сообществе уже появились предположения о причинах такого поведения. Вероятно, разработчики ужесточили фильтры после критики в адрес предыдущих версий, которые допускали генерацию потенциально опасного контента. В частности, в мае этого года компания столкнулась с обвинениями в том, что её модели могут использоваться для создания вредоносного ПО или биологических угроз. Однако теперь, по словам пользователей, баланс между безопасностью и функциональностью нарушен.
В качестве временного решения многие специалисты рекомендуют использовать предыдущую версию модели — Claude 3 Opus 4.8, которая не имеет таких жёстких ограничений. При этом отмечается, что проблема затрагивает не только профессионалов, но и студентов, использующих ИИ для обучения. «Это создаёт дополнительные барьеры для легитимных исследований», — отметил один из пользователей X, работающий в области биоинформатики.
Вопрос о том, как Anthropic планирует корректировать работу фильтров, остаётся открытым. В компании ранее заявляли, что безопасность моделей является приоритетом, однако текущая ситуация демонстрирует сложность настройки таких систем без ущерба для их полезности.