信息差

字节携手港大推出新视频模型Goku：实现虚拟数字人视频直接生成

近日，香港大学与字节跳动合作研发的基于流动的视频生成模型 Goku 正式发布。该模型利用先进的生成算法，可以根据文本提示生成高质量的视频内容，极大地丰富了数字艺术的表现形式。

为了展示 Goku 模型的强大功能，研究团队制作了一系列精彩的视频示例，这些示例不仅展示了模型的技术能力，也展现了其在创意表现上的无限潜力。

Goku 模型的特点在于其高效的生成速度和图像质量。通过使用大量的数据训练，Goku 可以生成包括动画、自然风光、动物行为等多种场景。研究人员使用了原版的 MovieGenBench 提示进行测试，确保了演示效果的一致性和公平性。

例如，其中一个视频展示了一位时尚女性在东京街头自信地漫步，街道上五光十色的霓虹灯映衬出温暖的夜色，行人熙熙攘攘，场景生动而真实。

另外一段视频则展示了数只巨型猛犸象在雪地上悠然走过，周围雪山和树林的衬托，让人仿佛置身于冰雪世界中。这些生动的场景不仅吸引观众的眼球，也为艺术创作者提供了丰富的灵感。

更让人惊艳的是，Goku 还支持直接生成虚拟数字人视频。Goku+将文本转换为超现实的人类视频，明显优于现有的方法。特别是，它可以生成超过20秒的视频，以稳定的手部动作和人类受试者极具表现力的面部和身体动作为特色。

另外支持从产品图片生成和人物互动视频，保持产品样式以及生成产品展示视频，可以从文本生成广告视频等功能。

如下图：Goku+将产品图片转化为引人入胜的视频片段，确保端到端的优化。这一过程增强了您的营销材料的吸引力和有效性。

如下图：制作逼真且极具吸引力的视频，专门展示特定产品。这些视频有效地捕捉了产品的精髓，提高了观众的参与度和兴趣。

另外，模型支持文本创建定制的高清视频，以优化广告场景，明显优于竞争对手的视频基础模型。

项目入口：https://saiyan-world.github.io/goku/

划重点:

🌟 Goku 模型由香港大学与字节跳动合作开发，能根据文本提示生成高质量视频内容。

🎨 模型展示了多种场景，包括时尚女性漫步东京街头和巨型猛犸象在雪地行走等，效果生动真实。

💡 Goku 模型的发布为视觉艺术创作提供了新工具，助力创作者探索更多可能性。

如果觉得文章对你有用，请随意赞赏

快讯

字节携手港大推出新视频模型Goku：实现虚拟数字人视频直接生成

破晓

2025-02-10

2025-02-10

CC BY 4.0