火山引擎在近期的视频云技术大会上发布了一项重要创新:大模型训练视频预处理方案。这一技术已成功应用于豆包视频生成模型,标志着AI视频生成技术的重大进展。
火山引擎总裁谭待强调,AIGC和多模态技术正在深刻改变用户体验。基于抖音的实践经验,火山引擎正积极探索AI大模型与视频技术的融合,为企业提供全方位解决方案。
抖音集团视频架构负责人王悦指出,大模型训练面临诸多挑战,包括海量数据处理成本高、样本质量不一、处理链路复杂,以及多种异构算力资源的调度问题。
为应对这些挑战,火山引擎开发的预处理方案基于自研的多媒体处理框架BMF,并借助Intel的多样化算力资源。该方案在算法和工程层面进行了优化,能高效处理海量视频数据,显著提高模型训练效率。
此外,火山引擎还开源了移动端后处理解决方案BMF lite版本,支持端侧大模型接入和算子加速,更加轻量化和通用。
值得注意的是,9月24日发布的豆包视频生成模型PixelDance已采用这一技术方案。该模型采用DiT架构,突破了多主体运动的复杂交互和多镜头切换的内容一致性难题。目前,豆包视频生成模型已通过火山引擎向企业开放邀测。