腾讯宣布开源其新研发的图像转视频生成框架 ——HunyuanVideo-I2V。该模型的发布是在其成功开源 HunyuanVideo 之后的又一重要进展,旨在推动开放源代码社区的深入探索。
HunyuanVideo-I2V 结合了先进的视频生成技术,能够将静态图像转换为生动的视频内容,为创作者提供了更多的可能性。
HunyuanVideo-I2V 利用了一个预训练的多模态大语言模型作为文本编码器,显著增强了模型对输入图像语义内容的理解能力。这意味着,用户输入的图像能够通过模型生成语义图像标记,这些标记与视频潜在标记相结合,从而实现更全面的全注意力计算。通过这种方式,系统能够最大限度地发挥图像和文本模态之间的协同作用,确保从静态图像生成的视频内容更具连贯性和真实感。
对于想要使用 HunyuanVideo-I2V 进行视频生成的用户,腾讯提供了详细的安装指南和使用说明。用户需要满足一定的硬件要求,建议使用拥有至少80GB 显存的 NVIDIA GPU,以实现最佳的视频生成质量。此外,系统支持高达720P 的分辨率和129帧(约5秒)的长视频生成。
为了帮助用户更好地使用该模型,腾讯还分享了一些提示,例如在撰写提示时应保持简洁,并确保涵盖主要元素,包括视频的主要主题、动作和背景等。
项目:https://github.com/Tencent/HunyuanVideo-I2V?tab=readme-ov-file