Open-Sora 是一个 开源的视频生成 AI 框架,旨在 让所有人都能高效地创建高质量视频。
它采用 深度学习 和 文本到视频(Text-to-Video, T2V) 技术,支持:
✅ 文本生成视频(Text-to-Video)
✅ 图像生成视频(Image-to-Video)
✅ 视频转换编辑(Video-to-Video)
📢 Open-Sora 2.0特点:
- 11B 模型在 VBench 和 人类偏好上与 腾讯HunyuanVideo 和 阶跃星程30B Step-Video 达到了同等性能。
- 训练成本显著降低。MovieGen 6144 GPUs ~$2.5M vs. Open-Sora 224 GPUs $200K。
- 完全开源:检查点、推理和分布式训练代码
Open-Sora 2.0(最新版本)带来了多项优化,让它的表现可以与 OpenAI Sora 相媲美。
🌟 1️⃣ 高质量视频生成
- 分辨率支持:256px ~ 768px,未来支持更高分辨率
- 时长:支持 2s~15s 视频生成
- 宽高比:支持 16:9、9:16、1:1、2.39:1
🔧 2️⃣ 全面优化的 AI 训练
模型大小:11B(与 HunyuanVideo 11B 和 Step-Video 30B 竞争)
- 训练成本:性能提升的同时,训练成本比上一代减少 50%,全流程训练只需 $200K,相比商业 AI 解决方案便宜数百万美元
- 核心架构:
- ✅ VAE(变分自动编码器)提升视频清晰度
✅ Transformer 结构优化时序一致性
✅ 运动评分(Motion Score)提高动态表现力
🛠 3️⃣ 训练与推理优化
- 训练成本降低 50%(H200 GPU 训练优化)
- 使用 Hugging Face & ModelScope 部署,易于集成
优化计算效率,支持 H200/H100 GPU 并行训练,提升效率