信息差

Stability AI推出革命性模型：单张2D图秒变沉浸式3D视频，多视角自由切换！

Stability AI 发布的一款基于扩散模型（Diffusion Model）的生成式 AI 工具：Stable Virtual Camera（稳定虚拟相机），专门用于新视角合成（Novel View Synthesis, NVS）。

它可以将二维图像（2D）或多视图输入转化为具有真实深度和透视感的沉浸式三维视频（3D Video），并支持用户自定义的相机轨迹控制。

Stable Virtual Camera 的命名灵感来源于电影制作中的虚拟相机技术，旨在为创作者提供一个直观、灵活的工具，用于生成高质量的 3D 视频内容。

📌 核心目标：

✅ 从单张或多张输入图像生成新视角
✅ 支持用户指定摄像机轨迹，生成 3D 一致的视频
✅ 无需显式 3D 建模，适用于多种视角合成任务
✅ 超越现有的 NVS（Novel View Synthesis）方法，提升稳定性与时间一致性

主要功能特点

新视角合成（NVS）
- 核心功能：从单一或多个输入视图（1 到 32 个）生成场景的新视角视图，支持任意目标相机位置。
- 3D 一致性：生成的视图在三维空间中保持一致性，避免传统扩散模型常见的失真或不连贯问题。适用于长时视频（支持 1000+ 帧），适用于虚拟现实 & 电影制作
- 灵活输入：支持从单张 2D 图像到多达 32 张视图的输入，随着输入视图数量增加，生成质量显著提升，尤其在大场景中表现优异。
动态相机控制
- 用户定义轨迹：用户可自由指定相机运动路径，例如 360° 环绕、螺旋、变焦（Dolly Zoom）、平移（Pan）等 14 种动态相机模式。
- 兼容各种摄像机轨迹
  - 支持用户自定义摄像机运动路径，如：
    - 环绕（Orbit）
    - 螺旋（Spiral）
    - 变焦（Dolly Zoom）
    - 自由相机运动（Free Camera Trajectory）
- 六自由度 (6DoF)：支持完整的相机位置和方向控制，提供类似真实摄影的沉浸式体验。
- 时间平滑性：当相机沿轨迹移动时，生成的视频帧在时间上平滑过渡，确保无缝观看体验。
长视频生成
- 帧数支持：可生成最长达 1000 帧的视频（约 41 秒，以 24fps 计算），并保持视角一致性。
- 循环闭合：在相机回到起始点时仍能维持场景一致性，解决扩散模型在长期生成中的“漂移”问题。
多分辨率与宽高比
- 零样本适应：尽管训练数据为 576x576 的方形图像，模型能生成不同宽高比的视频（如 1:1、9:16、16:9），无需额外训练。
- 高质量输出：生成的视频具有高分辨率和视觉保真度，适合多种创作需求。
无需复杂预处理
- 简化流程：不同于传统 3D 视频生成方法（如 NeRF），无需复杂的场景重建或特定优化，直接从输入图像生成结果。
- 野外泛化：能够在未见过的数据上良好泛化，适用于现实世界的多样化场景。

技术优势

🔹 1. AI 生成 3D 视角，无需 3D 建模

传统的 3D 视角生成依赖 3D 建模 & 渲染，需要大量计算资源。
Stable Virtual Camera 直接从 2D 画面 计算深度信息 & 透视感，无需建模，即可生成 3D 视角。

🔹 2. 先进的 AI 训练方式

Stable Virtual Camera 采用 多视角扩散（Multi-View Diffusion） 训练：

AI 先生成锚点视角（Anchor Views）
再动态填充过渡帧，确保平滑过渡 & 视角一致性

🔬 在新视角合成（NVS）任务中，Stable Virtual Camera 超越了 ViewCrafter 和 CAT3D。

适用场景

✅ 电影 & 游戏 → 虚拟摄像机，生成电影级镜头运动
✅ 虚拟现实（VR） → AI 生成 3D 视角，增强沉浸感
✅ 3D 资产创建 → 仅需少量图像，自动创建 3D 模型
✅ 智能交通 & 监控 → 从多视角数据生成全景场景

📢 Stable Virtual Camera 让 AI 摄像机成为可能，推动 3D 视觉生成技术！🚀

Stable Virtual Camera 目前处于研究预览版（Research Preview），支持非商业用途。

🔹 项目及演示：https://stable-virtual-camera.github.io/
🔹 开放模型权重下载（Hugging Face）
🔹 代码已开源（GitHub）

如果觉得文章对你有用，请随意赞赏

快讯

Stability AI推出革命性模型：单张2D图秒变沉浸式3D视频，多视角自由切换！

https://soraor.com/archives/ai-today_20250320121647

作者

破晓

发布于

2025-03-20

更新于

2025-03-20

许可协议

CC BY 4.0