信息差

Adobe发布MultiFoley AI音效生成系统，实现文字提示下的视频同步音效创作

最近，Adobe 研究团队与密歇根大学的研究人员联合开发了一款名为 MultiFoley 的人工智能系统，这款系统能够生成电影和视频中的配音音效，助力后期制作。

MultiFoley 的创新之处在于它允许用户通过文字提示、参考音频或视频示例来创造音效。在演示中，该系统甚至能将猫的叫声转化为狮子的吼叫，或将打字机的声音转换为钢琴音符，并与视频画面完美同步。

MultiFoley 的音频输出质量达到48kHz 的高带宽，这主要得益于研究人员使用互联网上的视频和专业音效库进行训练。与以往的系统不同，MultiFoley首次将多种输入方式 —— 文本、音频和视频参考 —— 整合到同一模型中。它通过分析每秒8帧的视觉特征，并将其放大以匹配40Hz 的音频采样率，确保生成的音频与视频保持紧密同步。

在测试中，MultiFoley 在音频与视频的同步和音效与文本描述的匹配方面表现出色，平均同步精度达到了0.8秒，显著优于传统系统通常超过一秒的延迟。用户研究显示，85.8% 的参与者认为 MultiFoley 在语义一致性方面优于第二名，而94.5% 的参与者更喜欢它的同步效果。

尽管 MultiFoley 展现出了强大的潜力，但研究团队也指出目前的一些局限性，例如训练数据相对较小，这限制了它的音效种类。同时，系统在生成多个同时音效时也存在一定困难。研究团队计划不久后发布源代码和模型。

虽然 Adobe 尚未宣布将 MultiFoley 纳入其产品中，但这一技术与 Adobe Premiere Pro 视频编辑软件中现有的人工智能功能非常契合，有望为个人创作者和制作公司在音效设计流程中带来便利。

划重点:

🎬 MultiFoley 是 Adobe 与密歇根大学合作开发的一款 AI 音效生成系统，可通过多种输入方式生成音效。

🔊 该系统的音频输出质量达到48kHz，平均同步精度为0.8秒，优于传统音效系统。

📈 用户研究显示，MultiFoley 在音效的语义一致性和同步效果方面都获得了高评价。

如果觉得文章对你有用，请随意赞赏

快讯

Adobe发布MultiFoley AI音效生成系统，实现文字提示下的视频同步音效创作

https://soraor.com/archives/ai-today_20241202112859

作者

破晓

发布于

2024-12-02

更新于

2024-12-02

许可协议

CC BY 4.0