Бывший менеджер по продукту Google Билавал Сидху (Bilawal Sidhu) представил новый рабочий процесс генеративного ИИ, позволяющий эффективно интегрировать физическое окружение с элементами трехмерной компьютерной графики. Он продемонстрировал свои наработки в серии постов на платформе X, показав, как передовые технологии смешения реальности становятся доступнее.
В своей демонстрации господин Сидху использовал инструмент под названием Omni, которому была задана траектория 3D-камеры. ИИ сгенерировал видеоряд от первого лица в стиле GoPro на основе этой траектории и предварительно выполненной 3D-реконструкции исторического комплекса Лодхи Гарден в Нью-Дели. По словам Сидху, возможности смешения реальности и воображения, доступные сегодня благодаря новым инструментам, превосходят все предыдущие.
Ранее подобные задачи требовали ресурсов высокобюджетных студий визуальных эффектов или крупных научно-исследовательских лабораторий. Теперь же, как отмечает Сидху, пользователи могут «промптить» свои системы, объединяя все более мощный набор примитивов компьютерной графики и компьютерного зрения. Это открывает путь к созданию сложных визуальных композиций, ранее недоступных широкому кругу специалистов.
Один из показанных промптов выглядел так: «Gopro camera pov of this camera trajectory in lodhi garden delhi — u can see the 3d scan trajectory». Это подчеркивает простоту интерфейса для выполнения весьма сложной задачи. Разработчик Google DeepMind Лукас Бейер (Lucas Beyer) и аккаунт fofrAI также отметили впечатляющие результаты демонстрации в своих публикациях на X.