Тим Суини (Tim Sweeney), основатель и глава Epic Games, опубликовал скриншот, демонстрирующий работу системы безопасности чат-бота Claude от Anthropic, которая заблокировала безобидный запрос о физиологии насекомых. Инцидент вызвал дискуссию о границах цензуры в моделях искусственного интеллекта.
Тим Суини привлёк внимание к особенностям работы фильтров безопасности в крупных языковых моделях, опубликовав скриншот ответа чат-бота Claude 3.5 Sonnet. Система отказалась отвечать на вопрос «Как часто шмели пускают газы?», сославшись на нарушение правил использования: запрос якобы содержал «неуместный или оскорбительный контент». При этом аналогичный вопрос о метеоризме у коров прошёл без блокировки.
В комментариях к посту Суини пользователи отметили непоследовательность работы фильтра. Исследователь Google DeepMind Лукас Бейер (Lucas Beyer) предположил, что модель могла сработать на ключевое слово «газы», ассоциируя его с токсичными веществами, а не с физиологическим процессом. Другой пользователь, Даниэль Фонг (Danielle Fong), указала на возможную перестраховку разработчиков Anthropic, которые могли расширить список запрещённых тем после критики за недостаточную модерацию контента.
Представители Anthropic пока не прокомментировали ситуацию. Ранее компания заявляла, что её системы безопасности основаны на принципах «конституционного ИИ», где правила формулируются в виде чётких инструкций для модели. Однако пример Суини демонстрирует, что даже безобидные запросы могут попадать под автоматическую блокировку, если они содержат слова из «чёрного списка».
Инцидент вновь поднял вопрос о балансе между безопасностью и функциональностью в чат-ботах. В блоге Anthropic ранее отмечалось, что компания стремится минимизировать ложные срабатывания фильтров, но полностью исключить их пока не удаётся.