Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。

这玩意再加上 Sora 这样的视频生成模型,一些简单的短视频以及广告视频基本上就不需要人工介入了,大家以后刷的估计都是生成出来的视频了,想要啥有啥。 Agents LAVE

我下面会简单介绍一下这个剪辑工具的界面组成和 Agents 设计:

工具界面及交互(图 1)

  • A 区域:主要是输入提示词以及展示 LLM 详细的剪辑逻辑。

  • B 区域:是素材库,你可以鼠标 Hover 后获得 LLM 帮你总结的这段视频的内容,不需要播放查看,AI 也会自动生成的素材标题。

  • E 区域:就是传统的视频时间轴,AI 剪辑的视频就在这里,你也可以手动调整。

Agents 设计(图 2)

系统提示前言:

  • 角色分配:一个开场段指示Agents担任视频编辑助理,负责根据用户命令生成行动计划。

  • 动作描述:在角色分配之后,描述了Agents可以执行的一系列动作。每个动作对应于LAVE支持的编辑功能。详细说明了每个动作的功能和用例,帮助Agents选择适当的响应以满足用户的命令。

  • 格式指导:最后,指导Agents以一致的格式输出行动计划:首先确定用户的编辑目标,然后列出逐步计划,列举建议的行动以实现该目标。

其他系统提示:

在前言之后,附加了最近的对话历史,以及最新的用户输入。这种组合形成了发送给LLM以生成行动计划的完整提示。

制定行动计划后,将其提交给用户进行批准:

  • 与批量批准不同,每个行动都由用户依次批准。这种方法允许用户执行一个行动,观察其结果,然后决定是否继续进行下一个行动。LAVE从行动计划中解析每个行动描述,并将其转化为相应的后端函数调用。

LAVE支持五种LLM功能:

  1. 素材概览:通过向量存储数据库实现基于语言的视频检索。

  2. 创意头脑风暴:通过LLM提示工程实现。

  3. 视频检索:同上。

  4. 故事板:同上。

  5. 剪辑修剪:通过双击编辑时间轴上的剪辑时出现的窗口进行。

  • 其中,基于语言的视频检索是通过向量存储数据库实现的,而其余功能则是通过LLM提示工程实现的。所有功能都是基于自动生成的语言构建的。 生成视觉叙述:以每秒一帧的速率对视频帧进行采样。然后使用建立在Vicuna-V1-13B 的LLaMA-V1-13B模型 的fine-tuned检查点LLaVA v1.0对每帧进行标题标注。

检索功能利用向量存储:通过使用OpenAI的text-embedding-ada-002将每个视频的视觉叙述(标题和摘要)进行嵌入。

将视频整合成共同的主题:提供用户视频收藏中主题的摘要。提示包括一个功能指令,然后是画廊视频的视觉叙述。然后将此提示发送到LLM以生成概览,随后在聊天界面中呈现给用户进行审阅。

基于用户的所有视频进行视频编辑创意:提示结构以功能指令开头。如果提供了创意指导,会在提示中包含用户的创意指导,以引导头脑风暴。

根据用户提供的叙述在序列中剪辑视频片段:与以前的功能不同,它只影响时间轴上的视频。与头脑风暴类似,系统会检查用户提供的叙述中是否有任何创意指导。

LAVE应用构建:

LAVE系统实现为全栈Web应用程序。前端UI采用React.js开发,而后端服务器采用Flask。对于LLM推理,主要使用OpenAI的最新GPT-4模型。然而,为了将行动计划映射到功能,使用了gpt-4-0613检查点,专门针对函数调用的使用进行了微调。

论文地址:https://arxiv.org/pdf/2402.10294.pdf