信息差

智谱AI绘图CogView4重磅开源，昔日开源王者强势回归！

声明：本文来自于微信公众号数字生命卡兹克，作者：数字生命卡兹克，授权Soraor转载发布。

昨天连更两篇，今天想休息一下，结果。。。

真的快肝吐了，感觉自从DeepSeek开源统治地球之后。

开源的世界，迎来了究极繁荣。

上周DeepSeek连续5天开源硬核技术，阿里开源万相2.1，Qwen的推理模型推出预览版，但是肯定马上也要开源。

而今天，智谱这个曾经的开源之光，在昨天官宣拿了杭州10亿融资之后，在官宣文章里如此写道:

我知道智谱今年会大力开源，但是没想到，开源年的第一棒，来的如此之快，就在第二天。。。

我。。。不是，让我歇会吧。。。

今天智谱和清华团队直接开源了他们的AI绘图模型，CogView4。

这下，真的快补上2025年开源届的拼图了。

模型链接在此:https://github.com/THUDM/CogView4

模型尺寸6B，在BF16和batchsize=4d的情况下，GPU需求如图。

最低估计一张12G的显卡就能跑起来。

我们也在第一时间，把模型下载下来，反手在AutoDL上开了一台A800-80G的显存，部署测试了一下。

我自己测试下来，一张1024*1024的图大概70s左右，AutoDL的云机器会慢一些，本地应该会快不少。

当然如果你们想直接体验，也可以用智谱官方自己搭好的在线服务:

https://modelscope.cn/studios/ZhipuAI/CogView4

在跑了一小时后，我觉得CogView4，有两个比较有意思的点。

一个一个说。

第一个点就是，CogView4支持中英文字直接生成，跟我之前写过的即梦2.1还挺像的，但是智谱的CogView4，是开源的。

这也是开源的AI绘图模型里，第一个支持同时生成中英文字的。

我跑了些case，大家可以直接看看。

比如这些Promtp:

一只布偶猫举着牌子，牌子上写着中文字体的“起来嗨’。

2.一幅极简主义风格的冬季插画，以"小雪"节气为主题。画面采用清新的浅蓝色调，上方用简约的白色中文字体写着"小雪"二字。构图主要分为三个层次:天空、雪山和铁路。背景是连绵起伏的雪山剪影，呈现出柔和的曲线;中间是一列橙红色的火车，在茫茫雪原上形成鲜明的视觉对比;整个画面点缀着飘落的雪花。

电影宣传海报，画面中间是韦小宝，四周是宫女，标题文字“重生之我是韦小宝”。

画面顶部英文标题:“I NEED YOU”，复古美漫动漫，画面中央是一个小孩在电视机前玩游戏的背影。

非常坦率的讲，整体效果和审美，是没有市面一些主流模型好的，中文字的错误率很高比英文大不少，审美和色彩，也有一点差距。

我测下来，感觉他们是没有把文字拎出来单独做处理，而是非常实诚的直接塞给模型直接处理了，所以中文错别字比例会高一些。

但是优点也很突出。

那就是，这玩意开源啊!唯一一个能生文字的开源。

就智谱的Cogview4的效果来看，我觉得，他们技术肯定是没问题，最大的问题，还是数据集这块，审美确实差不少，但是如果你就把它当个底座，来重搞数据集，微调一个很牛逼的电影海报设计模型，那真的不是不可能。

第二个特点，就是它的语义理解，还是真的有点东西的。

比如这些Prompt:

1.8K超宽幅画卷，分四区域: 左侧:唐代城门，朱红城墙，商队骆驼穿行，匾额题“朱雀门”; 中左:西市胡商集市，丝绸瓷器摊位，人群熙攘; 中右:曲江池畔，仕女泛舟，柳树垂岸; 右侧:大明宫殿群，飞檐斗栱，晨雾缭绕。整体风格为工笔重彩，绢布质感。

一幅横向长卷，从左到右依次是远古狩猎营地、古埃及金字塔群、中世纪市场、工业革命工厂、当代摩天楼、未来垂直花园城。

3.一笼刚出笼的上海小笼包，皮薄馅嫩，汤汁丰富，摆放在精致的竹制蒸笼中。旁边是一碟香醋和一双竹筷，背景是木质的餐桌和一壶绿茶，体现出江南的细腻和雅致风格。江南风味，精致，雅致

4.野径云俱黑，江船火独明。

一张照片级真实感的奇幻毛茸茸汽车，车身完全覆盖着厚实柔软的白色绒毛，明亮灵动的车灯宛如一双友善的大眼睛，轮胎隐藏在浓密蓬松的毛发之中，夜晚散发出温暖柔和的光晕，呈现出魔法生物般的风格，细节精致，质感极度逼真，充满梦幻气息与温馨感，电影级灯光效果

可以看到，美不美的另说，但是画的，是真的准确。

这块还是得益于，他们把T5换成了GLM4，这个还是爽多了。

目前他们在出图的分辨率上，也没限制特定比例，2048以下几乎都可以无极调节，这一点还是比较爽的。

后续，他们也会支持ComfyUI和ControlNET套件，还有微调的脚本。这个还是比较重要的，用CogView4来当基座模型微调的话，应该能玩出不少的花活。

目前开源的这个模型支持Apache2.0协议，而给普通用户用的版本，也会在3月13日上线在智谱清言上，到时候可以蹲一下。

最后，我想聊聊智谱这个公司。

国内我之前有一个非常主观不客观的评价，我把五家公司放在一起，并称为开源五虎。

其实在DeepSeek还没成立的时候，智谱就已经在kuku开源模型了。

如果是2023年就开始玩大模型玩AI的，应该见过这个风靡一时的基座模型，ChatGLM-6B。

4w的星标，在Github上意味着啥相信大家懂得都懂。

那个时候，我还在公司里面做项目，微调了好几个不同的GLM6B，串成工作流来执行任务。

后续，他们又开源了非常非常非常多的模型，比如GLM-4、GLM-4-Voice、CogVideoX v1.5、CogAgent等等等等。

时光匆匆，一晃眼，两年了。

这两年，感觉到了智谱的纠结、智谱的挣扎，还有他们的摇摆。

虽然在2024年的后半程，他们靠着AutoGLM和智能体，在整个AI圈杀出了一条自己的血路，但是在开源世界的声量，好像也被通义和DeepSeek压了过去。

老骥伏枥，志在千里。

在今天CogView4的仓库里面有这么一张官方生成的Demo图。

他们把2025年，定义为智谱AI自己的开源年。

不破不立，破而后立。

期待智谱拿下更多超级融资的同时，也能在开源路上越走越远。

毕竟，对我们所有人而言，每一家厂商的进步，都是让中国AI越发闪耀的灯火。

祝愿这片风云激荡的江湖，燃得更盛吧。

如果觉得文章对你有用，请随意赞赏

快讯

智谱AI绘图CogView4重磅开源，昔日开源王者强势回归！

https://soraor.com/archives/ai-today_20250304145419

作者

破晓

发布于

2025-03-04

更新于

2025-03-04

许可协议

CC BY 4.0