Новая система превращает изображение не просто в «прогулочное» видео, а в полноценную 3D-сцену, которую можно дорабатывать и экспортировать в сторонние инструменты — например, для игр, симуляций и робототехники.
Lyra 2.0 строит 3D-мир по одному изображению: сначала генерирует управляемый видеопроход по сцене, а затем восстанавливает из него объёмное представление. На выходе получаются не только кадры, но и 3D Gaussian Splats и surface meshes — то есть объекты и геометрия, пригодные для дальнейшей работы в других программах.
В этом и главное отличие Lyra 2.0 от многих «мировых моделей», которые в основном ограничиваются видео. Nvidia делает ставку на более практический сценарий: сцену можно экспортировать в движки и симуляторы, в том числе в Isaac Sim, который используется для робототехники и обучения роботов в виртуальной среде.
Модель построена на базе видеогенератора Wan 2.1-14B и рассчитана на длинные, исследуемые сцены, где пользователь может прокладывать маршрут и постепенно «достраивать» мир по мере движения камеры. Nvidia также выложила код и веса Lyra 2.0 в открытый доступ через GitHub и Hugging Face.
При этом модель выпущена не под полностью свободной лицензией Apache, а под NVIDIA Open Model License, то есть с отдельными условиями использования от Nvidia. В карточке модели также указано, что Lyra 2.0 — это система на 14 млрд параметров, рассчитанная прежде всего на исследовательские задачи в области 3D world models.