Новости 00:00, 16 июня 2026
Поделиться

Дистиллированные языковые модели наследуют уязвимости безопасности от исходных моделей

Исследователь из Google DeepMind Нил Нанда (Neel Nanda) обнаружил, что сжатые версии больших языковых моделей сохраняют сложные уязвимости и поведенческие особенности, присущие их «родительским» моделям, таким как Gemini.

Нил Нанда, специалист по интерпретируемости моделей в Google DeepMind, опубликовал результаты исследования, демонстрирующие, что дистиллированные (сжатые) языковые модели не только наследуют знания и навыки исходных моделей, но и их уязвимости в области безопасности. В частности, речь идёт о моделях, полученных методом дистилляции — процесса обучения меньшей модели на данных, сгенерированных более крупной.

По словам Нанды, даже после значительного уменьшения размера модели сохраняют нежелательные поведенческие паттерны, включая склонность к генерации токсичного контента или уязвимости к атакам типа «джелбрейк». Эти проблемы характерны для таких моделей, как Gemini, на основе которых часто создаются дистиллированные версии. Исследователь подчёркивает, что подобные артефакты не всегда очевидны на этапе тестирования, но могут проявляться в реальных сценариях использования.

Результаты работы Нанды подтверждают опасения экспертов по безопасности ИИ: сжатие моделей не решает проблему наследуемых рисков, а лишь маскирует их. В качестве примера приводится случай, когда дистиллированная модель, обученная на данных Gemini, воспроизводила специфические ошибки исходной модели, несмотря на отсутствие прямого доступа к её весам. Это ставит под вопрос эффективность дистилляции как метода снижения рисков без дополнительных мер по фильтрации обучающих данных.

Исследование также затрагивает вопрос интерпретируемости: даже в сжатых моделях сложно выявить причины сохранения нежелательных свойств. Нанда отмечает, что традиционные методы анализа, такие как механистическая интерпретируемость, могут не справляться с задачей из-за изменённой архитектуры дистиллированных моделей.

Источники: X-пост Нила Нанды (Neel Nanda), 14 июня 2026 года.