Новости 00:00, 29 июня 2026
Поделиться

Сжатие цепочек рассуждений снижает точность дистиллированных моделей ИИ

Исследование, опубликованное группой независимых исследователей и специалистов из DeepSeek, показало, что компрессия промежуточных шагов рассуждений (Chain-of-Thought) при дистилляции знаний ухудшает качество итоговых моделей.

Результаты работы ставят под сомнение распространённую практику оптимизации процесса обучения компактных моделей ИИ. Авторы эксперимента — Лун Ван (Lun Wang) из Калифорнийского университета в Беркли, Таншик Мэтью Абрахам (Tanishq Mathew Abraham), а также представители китайской компании DeepSeek — установили, что сжатие трасс рассуждений на 20–30% приводит к падению точности студенческих моделей на 5–12% в зависимости от задачи.

В основе исследования лежит анализ процесса дистилляции знаний, при котором компактная модель обучается на данных, сгенерированных более крупной и точной моделью. Традиционно промежуточные шаги рассуждений (Chain-of-Thought) используются для улучшения качества обучения, однако их хранение требует значительных вычислительных ресурсов. Авторы проверили гипотезу о том, что частичное сокращение этих шагов позволит ускорить обучение без потери качества.

Оказалось, что даже умеренное сжатие негативно влияет на итоговые показатели модели. «Потеря информации на промежуточных этапах рассуждений не компенсируется увеличением объёма обучающих данных», — отметил Таншик Мэтью Абрахам, один из авторов работы. Исследователи также протестировали альтернативные подходы, включая фильтрацию наименее значимых шагов, но и они не решили проблему.

Результаты работы были представлены в препринте, опубликованном на платформе arXiv. Авторы подчёркивают, что их выводы актуальны для разработчиков, стремящихся оптимизировать процесс дистилляции без потери качества моделей.

Источники: X-пост Таншика Мэтью Абрахама, 27 июня 2026; препринт на arXiv.