Новости 12:37, 28 мая 2026
Поделиться

Создатель DSPy Омар Хаттаб назвал on-policy дистилляцию неэффективной методикой обучения ИИ

Создатель фреймворка DSPy Омар Хаттаб (Omar Khattab) в серии постов в X раскритиковал подход on-policy distillation (OPD), назвав его структурно неэффективным из-за пассивной роли учителя в процессе обучения моделей. По его мнению, более перспективным направлением является Pedagogical RL — контролируемая off-policy дистилляция.

Омар Хаттаб, доцент Стэнфордского университета и автор фреймворка DSPy для оптимизации языковых моделей, выступил с критикой метода on-policy distillation (OPD), широко используемого в обучении моделей искусственного интеллекта. В серии постов в X он сравнил OPD с попыткой научить студента исследовательской работе, наблюдая за его бесплодными попытками и предлагая лишь минимальные корректировки постфактум.

По словам Хаттаба, ключевая проблема OPD заключается в том, что учитель вынужден пассивно анализировать неудачные траектории действий ученика, не имея возможности своевременно вмешаться и скорректировать процесс. «Представьте, что вы учите кого-то ехать в ближайший магазин, позволяя ему блуждать в случайных направлениях, а затем предлагаете лишь 10-миллисекундные подсказки по рулению из каждого ошибочного положения», — написал он. Метод, по его оценке, может быть эффективен лишь в узких сценариях с повторяющимися ошибками, но уступает альтернативным подходам в большинстве случаев.

В качестве более перспективной альтернативы Хаттаб предложил Pedagogical RL — разновидность контролируемой off-policy дистилляции, где учитель активно направляет ученика, отклоняясь от его вероятных действий лишь в необходимой мере. «Задача учителя — не просто наблюдать, а действительно обучать, вмешиваясь в процесс на минимально необходимом уровне», — пояснил он. Хаттаб также отметил, что ценность недавних работ по OPSD (on-policy self-distillation) заключается в создании «самообучающихся учителей» через in-context learning (ICL), особенно с использованием привилегированной информации.

В обсуждении приняли участие другие исследователи. Анонимный пользователь X под ником Grad указал, что OPD часто применяется после этапа обучения с подкреплением (RL) от экспертов, что выглядит неэффективно. По его мнению, OPD следует рассматривать как расширение supervised fine-tuning (SFT), позволяющее «выжать» дополнительную производительность из модели, уже находящейся в стабильном состоянии. При этом OPD может быть дешевле SFT, но требует предварительной подготовки модели.

Хаттаб согласился с этой оценкой, подчеркнув, что on-policy компонент в OPSD отвлекает от более значимых возможностей, которые открывает ICL и масштабирование вывода во время обучения.

Источники: X-пост Омара Хаттаба (Omar Khattab), 27 мая 2026; X-пост Grad, 28 мая 2026.