信息差 AIGC 全球视野

Meta 发布可以利用 AI 自动剪辑视频的Agents LAVE

Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。

这玩意再加上 Sora 这样的视频生成模型，一些简单的短视频以及广告视频基本上就不需要人工介入了，大家以后刷的估计都是生成出来的视频了，想要啥有啥。 Agents LAVE

我下面会简单介绍一下这个剪辑工具的界面组成和 Agents 设计：

角色分配：一个开场段指示Agents担任视频编辑助理，负责根据用户命令生成行动计划。
动作描述：在角色分配之后，描述了Agents可以执行的一系列动作。每个动作对应于LAVE支持的编辑功能。详细说明了每个动作的功能和用例，帮助Agents选择适当的响应以满足用户的命令。
格式指导：最后，指导Agents以一致的格式输出行动计划：首先确定用户的编辑目标，然后列出逐步计划，列举建议的行动以实现该目标。

在前言之后，附加了最近的对话历史，以及最新的用户输入。这种组合形成了发送给LLM以生成行动计划的完整提示。

与批量批准不同，每个行动都由用户依次批准。这种方法允许用户执行一个行动，观察其结果，然后决定是否继续进行下一个行动。LAVE从行动计划中解析每个行动描述，并将其转化为相应的后端函数调用。

其中，基于语言的视频检索是通过向量存储数据库实现的，而其余功能则是通过LLM提示工程实现的。所有功能都是基于自动生成的语言构建的。生成视觉叙述：以每秒一帧的速率对视频帧进行采样。然后使用建立在Vicuna-V1-13B 的LLaMA-V1-13B模型的fine-tuned检查点LLaVA v1.0对每帧进行标题标注。

检索功能利用向量存储：通过使用OpenAI的text-embedding-ada-002将每个视频的视觉叙述（标题和摘要）进行嵌入。

将视频整合成共同的主题：提供用户视频收藏中主题的摘要。提示包括一个功能指令，然后是画廊视频的视觉叙述。然后将此提示发送到LLM以生成概览，随后在聊天界面中呈现给用户进行审阅。

基于用户的所有视频进行视频编辑创意：提示结构以功能指令开头。如果提供了创意指导，会在提示中包含用户的创意指导，以引导头脑风暴。

根据用户提供的叙述在序列中剪辑视频片段：与以前的功能不同，它只影响时间轴上的视频。与头脑风暴类似，系统会检查用户提供的叙述中是否有任何创意指导。

LAVE系统实现为全栈Web应用程序。前端UI采用React.js开发，而后端服务器采用Flask。对于LLM推理，主要使用OpenAI的最新GPT-4模型。然而，为了将行动计划映射到功能，使用了gpt-4-0613检查点，专门针对函数调用的使用进行了微调。

如果觉得文章对你有用，请随意赞赏

sora 最新线报

Meta 发布可以利用 AI 自动剪辑视频的Agents LAVE

破晓

2024-02-22

2024-02-22

CC BY 4.0