阿里巴巴发布全新的开源视频模型Wan2.1,支持图片生成视频、文本生成视频、视频编辑等任务

Wan2.1拥有四个不同的型号:

全球领先的 AI 视频生成模型,支持 720P 高清视频
适合普通 GPU 运行,无需超级计算机
完全开源,适用于个人开发者、研究人员、影视制作团队
支持多种任务:文本生成视频、图片生成视频、视频转音频等

主要特性

  1. 最先进的视频生成性能(SOTA)

    • 在多项基准测试中,Wan2.1 超越了开源和商业闭源视频模型,生成质量达到业界领先水平。
  2. 兼容消费级 GPU

    • 🖥 低显存需求

      • Wan2.1 T2V-1.3B 版本仅需 8.19GB 显存,适用于大多数消费级 GPU(如 RTX 3090、RTX 4090)。
      • RTX 4090 上大约 4 分钟生成 5 秒 480P 视频,并支持 720P。

      🔹 相比其他闭源 AI 视频模型,Wan2.1 计算资源需求更低!适合个人开发者和研究者使用。

  3. 支持多种任务

    • 文本生成视频(T2V):基于文本描述生成高质量视频。
    • 图片生成视频(I2V):输入静态图片,生成动态视频。
    • 视频编辑:对已有视频进行修改和优化。
    • 文本生成图像(T2I):支持文本到图像生成。
    • 视频生成音频(V2A):可以为视频自动生成匹配的音频。

  4. 特别亮点:

    • 可以在视频中生成中英文字幕,这是目前大部分 AI 视频生成工具无法做到的。
    • 生成的视频带有自然的运动感,不像早期 AI 视频那样有大量失真和伪影。
  5. 强大的 AI 变分自编码器(VAE)

    Wan2.1 采用了先进的 3D 时空变分自编码器(3D VAE),能做到:
    更高效的视频压缩,降低计算量,同时保留时间一致性
    支持 1080P 长视频,不会丢失时间信息。
    相比传统 VAE,处理速度更快,质量更高


模型架构

  1. 3D 变分自编码器(VAE)

    • 创新 3D 时空 VAE 结构,优化视频数据压缩,降低显存使用,同时保证时间一致性
  2. Diffusion Transformer (DiT) 视频生成架构

    • 采用 Flow Matching 训练框架,结合 Transformer 进行文本到视频生成
    • 采用 T5 编码器处理文本,支持多语言文本输入
  3. 大规模数据集训练

    • 大规模数据集去重与清洗,确保训练数据的质量和多样性。

性能对比

1,035 个测试样例中,Wan2.1 在 14 个主要维度和 26 个子维度 上进行评估,最终综合得分超越了现有的开源和闭源模型

Wan2.1 兼顾了视频质量、计算成本和开源优势,适合个人开发者和 AI 研究人员使用!

🎯 立即体验!

你可以通过以下方式使用 Wan2.1:

  1. 前往 Hugging Face 官网 下载模型
  2. 安装依赖并运行本地测试
  3. 使用 Gradio Web 界面进行交互

    bash复制编辑cd gradio python i2v_14B_singleGPU.py --ckpt_dir_720p ./Wan2.1-I2V-14B-720P

GitHub:https://github.com/Wan-Video/Wan2.1

模型:https://huggingface.co/Wan-AI/