Новости 16:37, 11 июня 2026

Диффузионные видеомодели точнее предсказывают физику мира, чем специализированные модели

Исследователи из Google DeepMind и Стэнфордского университета обнаружили, что диффузионные модели генерации видео лучше кодируют физические законы реального мира по сравнению с узкоспециализированными world models. Результаты работы опубликованы в препринте на arXiv.

Группа учёных под руководством Лун Вана (Lun Wang) из Google DeepMind и Равида Шварца-Зива (Ravid Shwartz-Ziv) из Стэнфордского университета провела сравнительный анализ диффузионных видеомоделей и специализированных world models — систем, обученных предсказывать динамику окружающей среды. Выяснилось, что диффузионные модели, несмотря на отсутствие явной оптимизации под физические законы, демонстрируют более точное внутреннее представление о таких параметрах, как масса, упругость и трение.

Исследование основывалось на методе линейного зондирования (linear probing), который позволяет оценить, насколько хорошо модель кодирует определённые свойства объектов. Авторы протестировали несколько архитектур, включая Stable Video Diffusion и специализированные world models, обученные на симулированных физических сценах. Диффузионные модели показали лучшие результаты в задачах предсказания физических взаимодействий, таких как столкновения объектов или движение под действием силы тяжести.

«Наши результаты ставят под вопрос необходимость разработки узкоспециализированных world models для симуляции физики, — отметил Шварц-Зив в комментарии к публикации. — Диффузионные модели, изначально обученные на широких видеоданных, способны неявно усваивать фундаментальные законы без явного инжиниринга признаков».

Работа также подчёркивает потенциал диффузионных моделей для применения в робототехнике и автономных системах, где понимание физики окружающей среды критически важно. Авторы предполагают, что дальнейшие исследования могут быть направлены на извлечение этих знаний для улучшения планирования действий в реальном мире.

Источники: X-пост Равида Шварца-Зива, 10 июня 2026; препринт на arXiv.

Еще новости

Китайская DeepSeek и Пекинский университет представили фреймворк DSpark для ускорения ИИ-моделей на 85%

Coinbase сократила расходы на ИИ почти вдвое за счёт динамической маршрутизации и открытых моделей

Системный архитектор предупреждает о риске бунта open-source из-за ограничений на ИИ-модели