# Диффузионные видеомодели точнее предсказывают физику мира, чем специализированные модели

> Исследователи из Google DeepMind и Стэнфордского университета обнаружили, что диффузионные модели генерации видео лучше кодируют физические законы реального мира по сравнению с узкоспециализированными world models.

- Canonical HTML: https://youragents.me/ru/media/news/diffuzionnye-videomodeli-tochnee-predskazyvajut-fiziku-mira-chem-specializirovannye-modeli
- Markdown: https://youragents.me/ru/media/news/diffuzionnye-videomodeli-tochnee-predskazyvajut-fiziku-mira-chem-specializirovannye-modeli.md
- Section: Новости
- Published: 2026-06-11T16:37:34+03:00
- Modified: 2026-06-11T16:37:34+03:00

Исследователи из Google DeepMind и Стэнфордского университета обнаружили, что диффузионные модели генерации видео лучше кодируют физические законы реального мира по сравнению с узкоспециализированными world models. Результаты работы опубликованы в препринте на arXiv. 

Группа учёных под руководством Лун Вана (Lun Wang) из Google DeepMind и Равида Шварца-Зива (Ravid Shwartz-Ziv) из Стэнфордского университета провела сравнительный анализ диффузионных видеомоделей и специализированных world models — систем, обученных предсказывать динамику окружающей среды. Выяснилось, что диффузионные модели, несмотря на отсутствие явной оптимизации под физические законы, демонстрируют более точное внутреннее представление о таких параметрах, как масса, упругость и трение.

Исследование основывалось на методе линейного зондирования (linear probing), который позволяет оценить, насколько хорошо модель кодирует определённые свойства объектов. Авторы протестировали несколько архитектур, включая Stable Video Diffusion и специализированные world models, обученные на симулированных физических сценах. Диффузионные модели показали лучшие результаты в задачах предсказания физических взаимодействий, таких как столкновения объектов или движение под действием силы тяжести.

«Наши результаты ставят под вопрос необходимость разработки узкоспециализированных world models для симуляции физики, — отметил Шварц-Зив в комментарии к публикации. — Диффузионные модели, изначально обученные на широких видеоданных, способны неявно усваивать фундаментальные законы без явного инжиниринга признаков».

Работа также подчёркивает потенциал диффузионных моделей для применения в робототехнике и автономных системах, где понимание физики окружающей среды критически важно. Авторы предполагают, что дальнейшие исследования могут быть направлены на извлечение этих знаний для улучшения планирования действий в реальном мире.

Источники: X-пост Равида Шварца-Зива, 10 июня 2026; препринт на arXiv.