Open-Sora 是一个 开源的视频生成 AI 框架,旨在 让所有人都能高效地创建高质量视频
它采用 深度学习文本到视频(Text-to-Video, T2V) 技术,支持:

文本生成视频(Text-to-Video)
图像生成视频(Image-to-Video)
视频转换编辑(Video-to-Video)

📢 Open-Sora 2.0特点

  • 11B 模型在 VBench 和 人类偏好上与 腾讯HunyuanVideo 和 阶跃星程30B Step-Video 达到了同等性能。
  • 训练成本显著降低。MovieGen 6144 GPUs ~$2.5M vs. Open-Sora 224 GPUs $200K。
  • 完全开源:检查点、推理和分布式训练代码

Open-Sora 2.0(最新版本)带来了多项优化,让它的表现可以与 OpenAI Sora 相媲美。

🌟 1️⃣ 高质量视频生成

  • 分辨率支持:256px ~ 768px,未来支持更高分辨率
  • 时长:支持 2s~15s 视频生成
  • 宽高比:支持 16:9、9:16、1:1、2.39:1

🔧 2️⃣ 全面优化的 AI 训练

  • 模型大小:11B(与 HunyuanVideo 11BStep-Video 30B 竞争)

  • 训练成本:性能提升的同时,训练成本比上一代减少 50%,全流程训练只需 $200K,相比商业 AI 解决方案便宜数百万美元
  • 核心架构
  • VAE(变分自动编码器)提升视频清晰度
    Transformer 结构优化时序一致性
    运动评分(Motion Score)提高动态表现力

🛠 3️⃣ 训练与推理优化

  • 训练成本降低 50%(H200 GPU 训练优化)
  • 使用 Hugging Face & ModelScope 部署,易于集成
  • 优化计算效率,支持 H200/H100 GPU 并行训练,提升效率

一些效果展示

更多效果:https://hpcaitech.github.io/Open-Sora/

GitHub:https://github.com/hpcaitech/Open-Sora