在视频处理领域,如何从单镜头视频中高效追踪三维运动一直是一项难题,尤其是在需要对长序列进行像素级精确追踪时。传统方法面临多重挑战,往往只能跟踪少量关键点,无法实现完整场景的细致理解。
而且,现有技术的计算需求较高,难以在处理长视频时保持效率。同时,长时间的跟踪也会受到相机移动和物体遮挡等问题的影响,导致跟踪失误或错误的产生。
当前,视频序列运动估计的方法各有优缺点。光流技术提供了密集的像素追踪,但在复杂场景中,尤其是处理长序列时表现出韧性不足。
场景流则是对光流的扩展,通过 RGB-D 数据或点云来估计密集的三维运动,但在长序列中仍然难以高效应用。点跟踪方法虽然能够捕捉运动轨迹,并结合了空间和时间注意力以实现更平滑的跟踪,但由于计算成本较高,依然难以实现密集监测。再者,基于重建的跟踪方法利用变形场来估计运动,但在实时应用中实用性不强。
近日,来自马萨诸塞大学阿默斯特分校与 MIT-IBM 沃森人工智能实验室以及 Snap Inc. 的研究团队提出了 DELTA(Dense Efficient Long-range3D Tracking for Any video),这是一种专为高效追踪三维空间中每个像素而设计的方法。DELTA 通过低分辨率跟踪开始,采用时空注意力机制,并应用基于注意力的上采样器以实现高分辨率的准确性。其关键创新包括用于清晰运动边界的上采样器、高效的空间注意力架构以及增强跟踪性能的对数深度表示。
DELTA 在 CVO 和 Kubric3D 数据集上取得了先进的效果,在平均 Jaccard(AJ)和三维平均位置差(APD3D)等指标上提升超过10%,在 TAP-Vid3D 和 LSFOdyssey 等三维点跟踪基准中也表现出色。与现有方法不同,DELTA 在规模上实现了密集三维跟踪,运行速度比以往方法快8倍以上,同时保持了业界领先的准确性。
通过实验表明,DELTA 在三维跟踪任务中表现优异,速度和准确度均超过了以往方法。DELTA 在 Kubric 数据集上训练,包含超过5600个视频,其损失函数结合了2D 坐标、深度和可见性损失。
在基准测试中,DELTA 在长距离2D 跟踪和密集3D 跟踪上分别在 CVO 和 Kubric3D 中获得了最高分,任务完成速度远快于其他方法。DELTA 的设计选择,如对数深度表示、空间注意力和基于注意力的上采样器,显著提高了其在各种跟踪场景下的准确性和效率。
DELTA 是一种高效的方法,能够在视频帧中追踪每个像素,在密集 D 和3D 跟踪中取得了准确性和更快的运行时间。该方法在长时间遮挡的点上可能会面临挑战,最佳表现出现在帧数不超过数百的短视频中。DELTA 的三维跟踪准确性依赖于所使用的单目深度估计的精度和时域稳定性。预计单目深度估计的研究进展将进一步提升该方法的性能。
项目入口:https://snap-research.github.io/DELTA/
划重点:
🌟 DELTA 是一种全新方法,专为高效追踪单镜头视频中的每个像素而设计。
⚡ DELTA 在 CVO 和 Kubric3D 数据集上取得领先结果,速度比传统方法快8倍。
🔍 该方法在长时间遮挡点上可能存在挑战,但对短视频表现优异。