Новости 17:37, 11 июня 2026
Поделиться

Бывший сотрудник OpenAI раскритиковал скрытые ограничения безопасности в моделях ИИ

Экс-член команды оценки безопасности OpenAI Шьямал Анадкат (Shyamal Anadkat) заявил, что меры по снижению рисков в языковых моделях часто ухудшают качество ответов без явных отказов, что затрудняет диагностику проблем.

Шьямал Анадкат, ранее работавший в команде оценки безопасности OpenAI, опубликовал критику подходов к обеспечению безопасности в современных языковых моделях. По его словам, вместо того чтобы прямо отказываться выполнять потенциально опасные запросы, модели часто «молча» снижают качество ответов — например, выдают менее точные или обрывочные результаты. Это, как утверждает Анадкат, усложняет выявление и устранение недостатков, поскольку пользователи не получают явных сигналов о срабатывании защитных механизмов.

В основе критики — тезис о том, что такие «скрытые» вмешательства могут создавать иллюзию безопасности, не решая при этом фундаментальных проблем. Анадкат подчёркивает, что подобные практики распространены в индустрии, но их последствия редко обсуждаются публично. «Если модель отказывается отвечать на вопрос, это хотя бы очевидно. Когда она просто выдаёт худший результат, пользователь может даже не понять, что произошло», — отметил он в одном из постов.

Вопрос о балансе между безопасностью и функциональностью моделей ИИ остаётся одним из ключевых в отрасли. Ранее аналогичные дискуссии возникали вокруг таких практик, как цензурирование ответов или ограничение доступа к определённым данным. Однако критика Анадката фокусируется именно на «невидимых» изменениях в поведении моделей, которые не документируются и не объясняются пользователям.

Позиция бывшего сотрудника OpenAI вызвала резонанс среди специалистов по ИИ. Некоторые поддержали его точку зрения, указав на необходимость большей прозрачности в работе защитных механизмов. Другие, напротив, отметили, что скрытые ограничения могут быть оправданы в случаях, когда явный отказ способен спровоцировать нежелательное поведение пользователей.

Источники: X-пост Шьямала Анадката (Shyamal Anadkat), 10 июня 2026 года.