Новости 19:00, 24 июня 2026

Старший исследователь AI2 опубликовал бесплатную лекцию о синтетических данных и дистилляции моделей

Натан Ламберт (Nathan Lambert), ведущий специалист по посттренингу в Allen Institute for AI (AI2), выпустил открытую лекцию о развитии синтетических данных и методах дистилляции моделей с использованием on-policy подходов. Материал доступен для свободного изучения.

Натан Ламберт, старший исследователь в области посттренинга моделей в Allen Institute for AI (AI2), представил бесплатную лекцию, посвящённую эволюции синтетических данных и методам on-policy дистилляции. В материале рассматриваются ключевые подходы к генерации и использованию искусственных данных для обучения языковых моделей, а также оптимизация процесса передачи знаний от крупных моделей к более компактным.

Лекция адресована специалистам в области машинного обучения и разработчикам, работающим с большими языковыми моделями. Ламберт, известный своими работами по выравниванию моделей и RLHF (обучение с подкреплением на основе обратной связи от человека), подробно разбирает преимущества и ограничения синтетических данных, а также описывает практические сценарии применения on-policy дистилляции. В частности, он отмечает, что этот метод позволяет повысить эффективность обучения за счёт более целенаправленного использования обучающих примеров.

Материал основан на последних исследованиях AI2 и смежных проектов, включая работы по улучшению качества генерации данных и снижению зависимости от ручной разметки. Лекция доступна в открытом доступе и может служить отправной точкой для дальнейших исследований в области оптимизации обучения моделей.

Ранее Ламберт неоднократно выступал с критикой существующих подходов к посттренингу, подчёркивая необходимость более прозрачных и воспроизводимых методов. В своей лекции он продолжает эту линию, предлагая конкретные технические решения для повышения надёжности и эффективности моделей.

Источники: X-пост Натана Ламберта (Nathan Lambert), 23 июня 2026; блог Allen Institute for AI.

Еще новости

В публичном репозитории OpenAI обнаружены упоминания неанонсированной модели GPT-5.6

Создатель Hermes Agent представил команду `/learn` для автоматического обучения ИИ-систем новым навыкам

Экономист Стэнфорда Чад Джонс возглавит исследования ИИ в Anthropic Institute