还在苦苦寻觅能听懂中文的开源图片模型?现在,你可以彻底告别英文 prompt 的“束缚”了!国内 AI 巨头智谱 AI 霸气开源了全新文生图模型 CogView4,直接把中文图片生成技术推向了新高度! 这下,设计师们、内容创作者们,甚至是对 AI 绘画感兴趣的 “小白” 们,都能扬眉吐气,用咱自己的母语,玩转 AI 图像生成了!

image

CogView4最大的亮点,就是它对中文的“超强理解力”!你再也不用对着翻译软件吭哧吭哧地把中文 prompt 翻译成英文,直接用最自然的中文 “指令”,就能让 CogView4秒懂你的 “画意”,精准生成你想要的画面! 更让人拍案叫绝的是,它可是首个能直接在画面中 “写” 出汉字的开源模型! 这简直是为中文用户量身打造的 “神笔马良”,让你的创意表达更加 “原汁原味”,再也不用担心画面中的文字 “水土不服” 了!

更给力的是,CogView4还彻底解放了图片尺寸和 prompt 长度的限制! 想生成 “巨幅” 宽屏海报? 没问题! 想要 “长篇大论” 式的 prompt 描述复杂场景? 随便输! CogView4都能轻松Hold住,满足你各种 “天马行空” 的创作需求,让你的想象力不再被 “条条框框” 所限制!

而且,CogView4可不是 “花架子”, 它在权威DPG-Bench 基准测试中 “一举夺魁”,综合评分排名第一,实力可见一斑! 这意味着,CogView4不仅 “好用”,而且 “能打”, 在图像生成质量上也是杠杠的,绝对能满足你对画面品质的 “苛刻” 要求!

为了让更多开发者和用户 “玩转” CogView4, 智谱 AI 还贴心地表示,后续还会开源配套的 ControlNet、ComfyUI 支持和模型微调工具, 简直是把 “全套武功秘籍” 都奉上了! 这意味着,你不仅能 “开箱即用” CogView4的强大功能,还能根据自己的需求进行 “深度定制”, 打造更个性化、更强大的图像生成模型!

那么,CogView4究竟是如何炼成 “神功” 的呢? 简单来说,它主要在以下几个方面进行了 “技术升级”:

双语能力 “大跃进”: CogView4的 “大脑” 升级为了更强大的 GLM-4编码器, 中文、英文 “通吃”! 它还 “饱读诗书”, 学习了海量的中英双语图文数据, 彻底摆脱了以往中文模型 “英文不好使” 的尴尬局面, 真正做到了 “中英双语,自由切换”!

文本处理更 “聪明”: CogView4采用了 “动态文本长度” 技术, 就像一个 “智能裁缝”, 能根据 prompt 的长短 “量体裁衣”, 避免了传统固定长度方案的 “浪费” 和 “冗余”, 效率直接提升5%-30%! 这意味着, CogView4不仅理解 prompt 更精准, 生成速度也更快了!

分辨率生成更 “灵活”: CogView4采用了 “混合分辨率训练” 和 “二维旋转位置编码” 等 “黑科技”, 让它能够 “驾驭” 各种尺寸的图片生成, 无论是 “高清大图” 还是 “小巧精致” 都能轻松搞定! 它还采用了 Flow-matching 扩散模型和参数化线性动态噪声规划, 让图像生成过程更加 “丝滑” 和 “可控”!

训练流程更 “精细”: CogView4的训练过程堪称 “精雕细琢”, 经历了 “多阶段训练” 和 “人类偏好对齐” 等 “层层淬炼”, 从基础分辨率到泛分辨率,再到高质量数据微调, 每一步都力求 “精益求精”! 它还保留了 Share-param DiT 架构, 并为不同模态使用了独立的自适应层归一化, 让模型更加 “强大” 和 “高效”!

项目地址:https://github.com/THUDM/CogView4