信息差

智谱CogView3-Plus模型引领开源风潮，文生图技术跨入全新纪元

智谱技术团队今日发布了一则振奋人心的消息，他们最新研发的文生图模型CogView3及其升级版CogView3-Plus-3B已正式开源，同时在"智谱清言"App中成功上线。这两款模型的问世，标志着AI辅助艺术创作迈入了一个新的阶段。

CogView3作为一款基于级联扩散的文本转图像模型，其生成过程堪称精妙。模型首先生成一幅512x512像素的低分辨率图像，随后通过中继扩散过程将其提升至1024x1024，最终再次迭代，呈现出一幅2048x2048的高清大图。这种层层递进的生成方式，犹如数字画家在画布上逐步完善作品，为用户带来了极致的视觉体验。

据官方评估，CogView3的表现令人惊叹，其性能竟比当前顶尖的开源文生图模型SDXL高出77%。更值得一提的是，CogView3的推理速度仅为SDXL的十分之一，充分展现了智谱团队在模型优化方面的卓越成就。

CogView3-Plus的推出更是将这一技术推向了新的高峰。该版本引入了先进的DiT框架，采用了Zero-SNR扩散噪声调度，并创新性地加入了文本-图像联合注意力机制。这些改进不仅提升了模型的整体性能，还大幅降低了训练和推理成本，实现了效能与效率的完美平衡。CogView3-Plus采用的16维VAE潜在空间，为未来图像生成技术的发展开辟了新的可能性。

对于渴望探索这一前沿技术的开发者和研究者，智谱技术团队已经开放了CogView3和CogView3-Plus-3B的源代码仓库。这一举措无疑将推动整个AI图像生成领域的快速发展，为更多创新应用提供坚实的技术基础。

随着CogView3系列模型的问世，文生图技术的应用前景更加广阔。从个人创作到商业设计，从教育辅助到娱乐产业，这项技术都有望带来革命性的变革。我们可以预见，在不久的将来，AI辅助创作将成为常态，让更多人能够轻松实现自己的艺术构想。

开源仓库地址:

https://github.com/THUDM/CogView3

Plus 开源模型仓库:

https://huggingface.co/THUDM/CogView3-Plus-3B

https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

如果觉得文章对你有用，请随意赞赏

快讯

智谱CogView3-Plus模型引领开源风潮，文生图技术跨入全新纪元

https://soraor.com/archives/ai-today_20241015094638

作者

破晓

发布于

2024-10-15

更新于

2024-10-15

许可协议

CC BY 4.0