最近,Meta 与沙特阿拉伯的阿卜杜拉国王科技大学(KAUST)合作,推出了一款全新的视频扩散模型系列 ——MarDini。这个模型让高质量视频的创作变得更加简单和灵活,能够完成多种任务,比如填补视频中缺失的帧,将单张图片转换为动态场景,甚至还可以通过添加自然的连续帧来扩展短片段。
在去年的基础上,Meta 在生成 AI 视频领域进一步发力。此前,它推出了 Emu Video 和 Emu Edit 等文本转视频和编辑模型。今年在发布 MarDini 之前,还推出了先进的视频编辑器 Movie Gen。由此可见,Meta 正在致力于为视频创作者提供更强大的工具。
MarDini 的强大之处在于它能够根据任意数量的遮罩帧进行视频生成,支持多种生成任务,比如视频插值、图像到视频的转换以及视频扩展。
其中,MarDini 的主要应用是图像到视频的生成。通过使用放置在中间位置的一个参考帧作为条件输入,并生成16个额外的帧来演示此功能。在官方生成视频示例中,包含以8FPS 渲染的17帧,可生成流畅的2秒视频。
MarDini 还能够通过调节任何时长的现有视频来扩展视频。我们通过从5帧参考视频生成2秒扩展,为每个序列添加12个新帧。
MarDini 通过使用第一帧和最后一帧作为调节信号生成中间帧来实现视频插值。当这些边界帧相同时,MarDini 可以创建无缝循环视频。
MarDini 的工作原理非常有趣。它采用了先进而高效的视频生成技术,主要由两个部分构成:规划模型和生成模型。首先,规划模型会利用掩码自回归(MAR)方法来解释低分辨率的输入帧,生成需要创建的帧的指导信号。然后,轻量级的生成模型通过扩散过程来生成高分辨率的详细帧,从而确保最终视频流畅且视觉效果良好。
与许多需要复杂预训练图像模型的视频模型不同,MarDini 声称可以从零开始使用未标记的视频数据进行训练。这是因为它采用了渐进式训练策略,通过灵活地调整训练过程中帧的掩码方式,使得模型能够更好地应对不同的帧配置。
MarDini 的一个显著特点就是其灵活性和性能。它不仅强大而且高效,适用于更大规模的任务。这个模型能够处理视频插值、图像转视频生成和视频扩展等多种任务,无论是平滑现有的视频片段,还是从头开始创建完整的序列,它都能游刃有余。
在性能方面,MarDini 设定了新的基准,以更少的步骤生成高质量视频,这使得它在成本和时间上都比更复杂的替代方案更具优势。官方研究论文指出,“我们的研究表明,我们的建模策略在多种插值和动画基准测试中表现出竞争力,同时在可比参数规模下降低了计算需求。”
项目入口:https://mardini-vidgen.github.io/
划重点:
✨ MarDini 是 Meta 与 KAUST 合作推出的新一代视频生成模型,能够轻松完成多种视频创作任务。
🎥 该模型通过规划和生成模型的结合,实现了高效的视频插值和图像转视频生成。
💡 MarDini 以较少的步骤生成高质量视频,显著提升了创作的灵活性与效率。