信息差

一键转换3D奇幻世界：Wonderland高效打造精致3D场景

长期以来，如何仅凭单张图像高效生成高质量、广阔视角的3D场景一直是研究人员面临的挑战。传统方法往往依赖多视角数据，或需要耗时的逐场景优化，并且在背景质量和未见区域的重建上存在不足。现有技术在处理单视图3D场景生成时，常因信息不足而导致遮挡区域的错误或扭曲，背景模糊，以及难以推断未见区域的几何结构。而基于回归的模型虽然可以前馈方式进行新视角合成，但它们在处理复杂场景时面临巨大的内存和计算压力，因此大多局限于物体级别的生成或窄视角场景。

为了克服这些限制，研究人员推出了一项名为Wonderland的新技术。Wonderland能够仅凭单张图像，以前馈方式高效生成高质量、基于点云的3D场景表示（3DGS）。该技术利用视频扩散模型中蕴含的丰富3D场景理解能力，并直接从视频潜在空间构建3D表示，显著降低了内存需求。3DGS通过前馈方式从视频潜在空间回归，从而显著加快了重建过程。Wonderland的关键创新点包括:

利用相机引导的视频扩散模型的生成先验知识:与图像模型不同，视频扩散模型在大量视频数据集上进行训练，捕获了场景中跨多个视角的全面空间关系，并在其潜在空间中嵌入了一种“3D感知”形式，从而可以在新视角合成中保持3D一致性。

通过双分支条件机制实现精确的相机运动控制:该机制有效地将期望的各种相机轨迹整合到视频扩散模型中，使其能够将单张图像扩展为具有精确姿态控制的3D场景的多视角一致捕捉。

直接将视频潜在空间转换为3DGS以实现高效的3D重建:一种新型的基于潜在空间的大型重建模型（LaLRM）以前馈方式将视频潜在空间提升到3D。与从图像重建场景相比，视频潜在空间提供了256倍的时空压缩，同时保留了必要的、一致的3D结构细节。这种高度压缩对于使LaLRM能够在重建框架内处理更广泛的3D场景至关重要。

Wonderland通过利用视频扩散模型的生成能力，实现了高质量、广阔视角和更多样化场景的渲染，甚至可以处理超出对象级别重建的场景。其双分支相机条件策略，使视频扩散模型能够以更精确的姿态控制生成3D一致的多视角场景捕捉。在零样本新视角合成设置下，Wonderland使用单张图像作为输入进行前馈3D场景重建，其性能在多个基准数据集（如RealEstate10K，DL3DV和Tanks-and-Temples）上均优于现有方法。

Wonderland的整体流程是:首先，给定一张单张图像，一个相机引导的视频扩散模型会根据相机轨迹生成一个具有3D感知能力的视频潜在空间。然后，基于潜在空间的大型重建模型（LaLRM）以前馈方式利用该视频潜在空间构建3D场景。视频扩散模型采用双分支相机条件机制来实现精确的姿态控制。LaLRM在潜在空间中运行，并高效重建广阔且高保真的3D场景。

Wonderland的技术细节如下:

相机引导的视频潜在空间生成:为了实现精确的姿态控制，该技术使用像素级的Plücker嵌入丰富条件信息，并采用双分支条件机制，将相机信息融入到视频扩散模型中，以生成静态场景。

基于潜在空间的大型重建模型（LaLRM）:该模型将视频潜在空间转换为3D高斯飞溅(3DGS)，用于场景构建。LaLRM通过使用transformer架构回归高斯属性，以像素对齐的方式进行大规模重建，与图像级逐场景优化策略相比，大大降低了内存和时间成本。

渐进式训练策略:为了应对视频潜在空间和高斯飞溅之间的巨大差异，Wonderland采用渐进式训练策略，在数据源和图像分辨率方面逐步提高模型性能。

研究人员通过广泛的实验验证了Wonderland的有效性。在相机引导的视频生成方面，Wonderland在视觉质量、相机引导精度和视觉相似度方面均优于现有技术。在3D场景生成方面，Wonderland在RealEstate10K、DL3DV和Tanks-and-Temples等基准数据集上的表现也明显优于其他方法。此外，Wonderland在野外场景生成方面也展现了强大的能力。在延迟方面，Wonderland仅需5分钟即可完成场景生成，远超其他方法.

Wonderland通过在潜在空间中操作，并结合双分支相机姿态引导，不仅提高了3D重建的效率，还保证了高质量的场景生成，为单张图像生成3D场景带来了新的突破。

论文地址：https://arxiv.org/pdf/2412.12091

如果觉得文章对你有用，请随意赞赏

快讯

一键转换3D奇幻世界：Wonderland高效打造精致3D场景

https://soraor.com/archives/ai-today_20250107143324

作者

破晓

发布于

2025-01-07

更新于

2025-01-07

许可协议

CC BY 4.0