# Создатель DSPy Омар Хаттаб назвал on-policy дистилляцию неэффективной методикой обучения ИИ

> Создатель фреймворка DSPy Омар Хаттаб (Omar Khattab) в серии постов в X раскритиковал подход on-policy distillation (OPD), назвав его структурно неэффективным из-за пассивной роли учителя в процессе обучения моделей.

- Canonical HTML: https://youragents.me/ru/media/news/sozdatel-dspy-omar-hattab-nazval-on-policy-distilljaciju-nejeffektivnoj-metodikoj-obuchenija-ii
- Markdown: https://youragents.me/ru/media/news/sozdatel-dspy-omar-hattab-nazval-on-policy-distilljaciju-nejeffektivnoj-metodikoj-obuchenija-ii.md
- Section: Новости
- Published: 2026-05-28T12:37:40+03:00
- Modified: 2026-05-28T12:37:40+03:00

Создатель фреймворка DSPy Омар Хаттаб (Omar Khattab) в серии постов в X раскритиковал подход on-policy distillation (OPD), назвав его структурно неэффективным из-за пассивной роли учителя в процессе обучения моделей. По его мнению, более перспективным направлением является Pedagogical RL — контролируемая off-policy дистилляция. 

Омар Хаттаб, доцент Стэнфордского университета и автор фреймворка DSPy для оптимизации языковых моделей, выступил с критикой метода on-policy distillation (OPD), широко используемого в обучении моделей искусственного интеллекта. В серии постов в X он сравнил OPD с попыткой научить студента исследовательской работе, наблюдая за его бесплодными попытками и предлагая лишь минимальные корректировки постфактум.

По словам Хаттаба, ключевая проблема OPD заключается в том, что учитель вынужден пассивно анализировать неудачные траектории действий ученика, не имея возможности своевременно вмешаться и скорректировать процесс. «Представьте, что вы учите кого-то ехать в ближайший магазин, позволяя ему блуждать в случайных направлениях, а затем предлагаете лишь 10-миллисекундные подсказки по рулению из каждого ошибочного положения», — написал он. Метод, по его оценке, может быть эффективен лишь в узких сценариях с повторяющимися ошибками, но уступает альтернативным подходам в большинстве случаев.

В качестве более перспективной альтернативы Хаттаб предложил Pedagogical RL — разновидность контролируемой off-policy дистилляции, где учитель активно направляет ученика, отклоняясь от его вероятных действий лишь в необходимой мере. «Задача учителя — не просто наблюдать, а действительно обучать, вмешиваясь в процесс на минимально необходимом уровне», — пояснил он. Хаттаб также отметил, что ценность недавних работ по OPSD (on-policy self-distillation) заключается в создании «самообучающихся учителей» через in-context learning (ICL), особенно с использованием привилегированной информации.

В обсуждении приняли участие другие исследователи. Анонимный пользователь X под ником Grad указал, что OPD часто применяется после этапа обучения с подкреплением (RL) от экспертов, что выглядит неэффективно. По его мнению, OPD следует рассматривать как расширение supervised fine-tuning (SFT), позволяющее «выжать» дополнительную производительность из модели, уже находящейся в стабильном состоянии. При этом OPD может быть дешевле SFT, но требует предварительной подготовки модели.

Хаттаб согласился с этой оценкой, подчеркнув, что on-policy компонент в OPSD отвлекает от более значимых возможностей, которые открывает ICL и масштабирование вывода во время обучения.

Источники: X-пост Омара Хаттаба (Omar Khattab), 27 мая 2026; X-пост Grad, 28 мая 2026.