信息差

火山引擎推出新型大模型训练视频预处理技术，PixelDance率先实施应用

火山引擎在近期的视频云技术大会上发布了一项重要创新:大模型训练视频预处理方案。这一技术已成功应用于豆包视频生成模型，标志着AI视频生成技术的重大进展。

火山引擎总裁谭待强调，AIGC和多模态技术正在深刻改变用户体验。基于抖音的实践经验，火山引擎正积极探索AI大模型与视频技术的融合，为企业提供全方位解决方案。

抖音集团视频架构负责人王悦指出，大模型训练面临诸多挑战，包括海量数据处理成本高、样本质量不一、处理链路复杂，以及多种异构算力资源的调度问题。

为应对这些挑战，火山引擎开发的预处理方案基于自研的多媒体处理框架BMF，并借助Intel的多样化算力资源。该方案在算法和工程层面进行了优化，能高效处理海量视频数据，显著提高模型训练效率。

此外，火山引擎还开源了移动端后处理解决方案BMF lite版本，支持端侧大模型接入和算子加速，更加轻量化和通用。

值得注意的是，9月24日发布的豆包视频生成模型PixelDance已采用这一技术方案。该模型采用DiT架构，突破了多主体运动的复杂交互和多镜头切换的内容一致性难题。目前，豆包视频生成模型已通过火山引擎向企业开放邀测。

如果觉得文章对你有用，请随意赞赏

快讯

火山引擎推出新型大模型训练视频预处理技术，PixelDance率先实施应用

破晓

2024-10-15

2024-10-15

CC BY 4.0