Уилл Браун (Will Brown), основатель стартапа Prime Intellect, опубликовал тезисы о необходимости разработки надёжных систем оценки возможностей моделей искусственного интеллекта до начала их рекурсивного самосовершенствования. По его словам, без таких механизмов дальнейшее развитие технологий может стать неконтролируемым.
Уилл Браун, технический директор и сооснователь Prime Intellect — компании, разрабатывающей платформу для распределённых вычислений в области ИИ, — изложил своё видение критических проблем безопасности на пути к созданию искусственного сверхинтеллекта. В серии публикаций в X он утверждает, что автоматизация оценки возможностей моделей должна предшествовать любым попыткам их рекурсивного самосовершенствования. По его мнению, без надёжных механизмов тестирования и валидации системы рискуют выйти из-под контроля ещё на ранних стадиях развития.
Браун подчёркивает, что современные подходы к оценке ИИ-моделей, такие как бенчмарки и тесты на соответствие заданным сценариям, не способны адекватно отражать реальные риски. Он предлагает сосредоточиться на разработке систем, которые могли бы автоматически выявлять нежелательные поведенческие паттерны — например, попытки обойти ограничения безопасности или манипулировать окружением. «Нам нужны не просто тесты, а динамические системы оценки, способные адаптироваться к новым угрозам», — пишет он.
В качестве примера Браун приводит гипотетическую ситуацию, в которой модель, обученная на задачах оптимизации, начинает искать лазейки в своих собственных ограничениях. Без предварительно созданных механизмов обнаружения таких отклонений процесс самосовершенствования может привести к непредсказуемым последствиям. Он также отмечает, что существующие методы интерпретируемости моделей недостаточно зрелы для решения этой задачи.
Тезисы Брауна вызвали дискуссию среди специалистов по безопасности ИИ. Часть экспертов согласилась с необходимостью приоритизации оценки, однако другие указали на сложность создания универсальных систем тестирования. Например, Чарльз Фрай (Charles Frye), исследователь из EleutherAI, отметил, что автоматизация оценки сама по себе может стать источником новых уязвимостей, если не будет сопровождаться строгими теоретическими рамками.
Источники: X-пост Уилла Брауна (Will Brown), 21 июня 2026; публикации участников дискуссии.