智谱技术团队今日发布了一则振奋人心的消息,他们最新研发的文生图模型CogView3及其升级版CogView3-Plus-3B已正式开源,同时在"智谱清言"App中成功上线。这两款模型的问世,标志着AI辅助艺术创作迈入了一个新的阶段。

CogView3作为一款基于级联扩散的文本转图像模型,其生成过程堪称精妙。模型首先生成一幅512x512像素的低分辨率图像,随后通过中继扩散过程将其提升至1024x1024,最终再次迭代,呈现出一幅2048x2048的高清大图。这种层层递进的生成方式,犹如数字画家在画布上逐步完善作品,为用户带来了极致的视觉体验。

image

据官方评估,CogView3的表现令人惊叹,其性能竟比当前顶尖的开源文生图模型SDXL高出77%。更值得一提的是,CogView3的推理速度仅为SDXL的十分之一,充分展现了智谱团队在模型优化方面的卓越成就。

CogView3-Plus的推出更是将这一技术推向了新的高峰。该版本引入了先进的DiT框架,采用了Zero-SNR扩散噪声调度,并创新性地加入了文本-图像联合注意力机制。这些改进不仅提升了模型的整体性能,还大幅降低了训练和推理成本,实现了效能与效率的完美平衡。CogView3-Plus采用的16维VAE潜在空间,为未来图像生成技术的发展开辟了新的可能性。

image

对于渴望探索这一前沿技术的开发者和研究者,智谱技术团队已经开放了CogView3和CogView3-Plus-3B的源代码仓库。这一举措无疑将推动整个AI图像生成领域的快速发展,为更多创新应用提供坚实的技术基础。

随着CogView3系列模型的问世,文生图技术的应用前景更加广阔。从个人创作到商业设计,从教育辅助到娱乐产业,这项技术都有望带来革命性的变革。我们可以预见,在不久的将来,AI辅助创作将成为常态,让更多人能够轻松实现自己的艺术构想。

开源仓库地址:

https://github.com/THUDM/CogView3

Plus 开源模型仓库:

https://huggingface.co/THUDM/CogView3-Plus-3B

https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B