Stability AI 发布的一款基于扩散模型(Diffusion Model)的生成式 AI 工具:Stable Virtual Camera(稳定虚拟相机),专门用于新视角合成(Novel View Synthesis, NVS)。
它可以将二维图像(2D)或多视图输入转化为具有真实深度和透视感的沉浸式三维视频(3D Video),并支持用户自定义的相机轨迹控制。
Stable Virtual Camera 的命名灵感来源于电影制作中的虚拟相机技术,旨在为创作者提供一个直观、灵活的工具,用于生成高质量的 3D 视频内容。
📌 核心目标:
✅ 从单张或多张输入图像生成新视角
✅ 支持用户指定摄像机轨迹,生成 3D 一致的视频
✅ 无需显式 3D 建模,适用于多种视角合成任务
✅ 超越现有的 NVS(Novel View Synthesis)方法,提升稳定性与时间一致性
主要功能特点
新视角合成(NVS)
- 核心功能:从单一或多个输入视图(1 到 32 个)生成场景的新视角视图,支持任意目标相机位置。
- 3D 一致性:生成的视图在三维空间中保持一致性,避免传统扩散模型常见的失真或不连贯问题。适用于长时视频(支持 1000+ 帧),适用于虚拟现实 & 电影制作
- 灵活输入:支持从单张 2D 图像到多达 32 张视图的输入,随着输入视图数量增加,生成质量显著提升,尤其在大场景中表现优异。
动态相机控制
- 用户定义轨迹:用户可自由指定相机运动路径,例如 360° 环绕、螺旋、变焦(Dolly Zoom)、平移(Pan)等 14 种动态相机模式。
兼容各种摄像机轨迹
支持用户自定义摄像机运动路径,如:
- 环绕(Orbit)
- 螺旋(Spiral)
- 变焦(Dolly Zoom)
- 自由相机运动(Free Camera Trajectory)
- 六自由度 (6DoF):支持完整的相机位置和方向控制,提供类似真实摄影的沉浸式体验。
- 时间平滑性:当相机沿轨迹移动时,生成的视频帧在时间上平滑过渡,确保无缝观看体验。
长视频生成
- 帧数支持:可生成最长达 1000 帧的视频(约 41 秒,以 24fps 计算),并保持视角一致性。
- 循环闭合:在相机回到起始点时仍能维持场景一致性,解决扩散模型在长期生成中的“漂移”问题。
多分辨率与宽高比
- 零样本适应:尽管训练数据为 576x576 的方形图像,模型能生成不同宽高比的视频(如 1:1、9:16、16:9),无需额外训练。
- 高质量输出:生成的视频具有高分辨率和视觉保真度,适合多种创作需求。
无需复杂预处理
- 简化流程:不同于传统 3D 视频生成方法(如 NeRF),无需复杂的场景重建或特定优化,直接从输入图像生成结果。
- 野外泛化:能够在未见过的数据上良好泛化,适用于现实世界的多样化场景。
技术优势
🔹 1. AI 生成 3D 视角,无需 3D 建模
- 传统的 3D 视角生成依赖 3D 建模 & 渲染,需要大量计算资源。
- Stable Virtual Camera 直接从 2D 画面 计算深度信息 & 透视感,无需建模,即可生成 3D 视角。
🔹 2. 先进的 AI 训练方式
Stable Virtual Camera 采用 多视角扩散(Multi-View Diffusion) 训练:
- AI 先生成锚点视角(Anchor Views)
- 再动态填充过渡帧,确保平滑过渡 & 视角一致性
🔬 在新视角合成(NVS)任务中,Stable Virtual Camera 超越了 ViewCrafter 和 CAT3D。
适用场景
✅ 电影 & 游戏 → 虚拟摄像机,生成电影级镜头运动
✅ 虚拟现实(VR) → AI 生成 3D 视角,增强沉浸感
✅ 3D 资产创建 → 仅需少量图像,自动创建 3D 模型
✅ 智能交通 & 监控 → 从多视角数据生成全景场景
📢 Stable Virtual Camera 让 AI 摄像机成为可能,推动 3D 视觉生成技术!🚀
Stable Virtual Camera 目前处于研究预览版(Research Preview),支持非商业用途。
🔹 项目及演示:https://stable-virtual-camera.github.io/
🔹 开放模型权重下载(Hugging Face)
🔹 代码已开源(GitHub)