Бывший продакт-менеджер Google Билавал Сидху (Bilawal Sidhu) продемонстрировал возможность модели Google Omni создавать видеоролики от первого лица с дрона на основе эскиза маршрута, нанесённого на скриншот Google Earth. Эксперимент опубликован 26 мая 2026 года.
Билавал Сидху, ранее работавший в Google, показал, как мультимодальная модель Google Omni способна интерпретировать рукописный набросок траектории полёта на изображении со спутниковой картой и генерировать реалистичное видео с точки зрения дрона, следующего по заданному пути. В своём посте на X Сидху отметил, что результат можно улучшить, удалив линии эскиза с помощью дополнительного промпта, а также повысить географическую точность, используя пространственный RAG (retrieval-augmented generation) с локальными аэрофотоснимками и панорамами улиц.
Демонстрация вызвала интерес среди специалистов по компьютерному зрению и генеративным моделям. Исследователь NVIDIA Натаниэль Руис (Nataniel Ruiz) назвал результат «довольно безумным», а инженер Google Дипмайнд Ник Добос (Nick Dobos) подчеркнул возможность преобразования «изображения с разметкой в видео». По словам Сидху, текущая версия Omni уже справляется с задачей, но потенциал технологии шире — например, интеграция с реальными геоданными может сделать сгенерированные ролики практически неотличимыми от настоящих съёмок.
Эксперимент Сидху иллюстрирует прогресс в области генерации видео по текстовым и визуальным инструкциям. Ранее подобные модели требовали детальных описаний или 3D-моделей сцены, тогда как Omni способна работать с минималистичным эскизом, что упрощает процесс создания контента для пользователей без технической подготовки. В то же время эксперты отмечают, что для коммерческого применения технологии потребуется решить вопросы точности и согласованности кадров.
Источники: X-пост Билавала Сидху, 26 мая 2026; комментарии Натаниэля Руиса, Ника Добоса, 27 мая 2026.