Исследователи из Google DeepMind и Стэнфордского университета обнаружили, что диффузионные модели генерации видео лучше кодируют физические законы реального мира по сравнению с узкоспециализированными world models. Результаты работы опубликованы в препринте на arXiv.
Группа учёных под руководством Лун Вана (Lun Wang) из Google DeepMind и Равида Шварца-Зива (Ravid Shwartz-Ziv) из Стэнфордского университета провела сравнительный анализ диффузионных видеомоделей и специализированных world models — систем, обученных предсказывать динамику окружающей среды. Выяснилось, что диффузионные модели, несмотря на отсутствие явной оптимизации под физические законы, демонстрируют более точное внутреннее представление о таких параметрах, как масса, упругость и трение.
Исследование основывалось на методе линейного зондирования (linear probing), который позволяет оценить, насколько хорошо модель кодирует определённые свойства объектов. Авторы протестировали несколько архитектур, включая Stable Video Diffusion и специализированные world models, обученные на симулированных физических сценах. Диффузионные модели показали лучшие результаты в задачах предсказания физических взаимодействий, таких как столкновения объектов или движение под действием силы тяжести.
«Наши результаты ставят под вопрос необходимость разработки узкоспециализированных world models для симуляции физики, — отметил Шварц-Зив в комментарии к публикации. — Диффузионные модели, изначально обученные на широких видеоданных, способны неявно усваивать фундаментальные законы без явного инжиниринга признаков».
Работа также подчёркивает потенциал диффузионных моделей для применения в робототехнике и автономных системах, где понимание физики окружающей среды критически важно. Авторы предполагают, что дальнейшие исследования могут быть направлены на извлечение этих знаний для улучшения планирования действий в реальном мире.
Источники: X-пост Равида Шварца-Зива, 10 июня 2026; препринт на arXiv.