近日,DeepBeepMeep 团队在 GitHub 上发布了 Wan2.1GP,一个针对低端 GPU 用户优化的视频生成模型。该模型基于阿里巴巴的 Wan2.1,旨在为缺乏高性能 GPU 资源的用户提供强大的视频生成能力。Wan2.1GP 的推出标志着视频生成技术的一个重要进步,尤其是在开放源代码领域。
图源备注:图片由AI生成,图片授权服务商Midjourney
Wan2.1GP 的主要特点包括其优异的性能和广泛的适用性。该模型在多个基准测试中持续超越现有的开源模型和一些商业解决方案,展现出强大的竞争力。此外,T2V-1.3B 模型仅需8.19GB 的显存,这使得几乎所有消费级 GPU 都能运行。通过一台 RTX4090显卡,用户能够在约4分钟内生成一段5秒的480P 视频,性能表现甚至可与一些封闭源模型相媲美。
Wan2.1GP 不仅支持文本到视频、图像到视频、视频编辑等多种任务,而且还是首个能够同时生成中英文文本的视频模型。这一特性为用户的实际应用带来了更多可能性。此外,该模型还搭载了强大的视频变分自编码器(VAE),能够高效编码和解码任何长度的1080P 视频,完好保留时间信息,为视频和图像生成打下了坚实基础。
为了提升用户体验,Wan2.1GP 进行了多项优化,包括显著降低内存和显存需求,支持多种配置以适应不同性能的设备。用户可以通过简化的安装流程,快速上手这一工具。随着不断的版本更新,Wan2.1GP 也逐步加入了更多实用功能,如 Tea Cache 支持、Gradio 界面改进等,进一步提高生成速度和使用便利性。
项目入口:https://github.com/deepbeepmeep/Wan2GP
划重点:
👍 SOTA 性能:Wan2.1GP 在多个基准测试中表现优异,超过现有开源和商业解决方案。
🖥️ 兼容性强:仅需8.19GB 显存,支持几乎所有消费级 GPU,适合低端用户。
📜 多任务支持:支持文本到视频、图像到视频等多种生成任务,并具备中英文文本生成能力。