ChatDLM:第一个扩散语言模型 (DLM),是深度融合 Block Diffusion 和 Mixture-of-Experts (MoE) 架构的大模型,实现了全球最快的推理速度,即将开源。

它采用并行块级扩散、动态专家路由、超大上下文窗口,能在 NVIDIA A100 GPU 上达到2800 tokens/s推理速度,支持131,072 tokens的超长上下文。

该模型有中国公司Qafind Labs 开发。

  • 参数大小: 7B
  • 极快速度:每秒能处理2800个token,远超其他AI模型。
  • 超大记忆:一次能“记住”13万词(131,000 tokens),可以处理长文档、小说、代码等超长内容。
  • 聪明分工:模型会把输入分成许多小块,同时用不同“专家”模块处理,再智能整合,既快又准。
  • 主要基准测试成绩

    • HumanEval (0-shot):92.0
    • Fill-in-the-Middle:84.2
    • ARC-E (0-shot):83.9 > 在代码理解、插入、复杂推理等任务上表现出色。

2800 tokens/s有多快?

  • “token”可以理解为“单词碎片”,通常一个英文单词1-2个token,中文一字一个token。
  • 2800 tokens/s 指的是,AI每秒能处理、生成2800个token(比如2800个汉字,或者2000多英文单词)。

眨眼速度

  • 人眨一次眼大约0.3秒
  • 2800 tokens/s = 0.3秒内处理840个token
  • 等于:你刚眨一次眼,AI已经“写完”了大半篇短文。

人类说话速度

  • 普通人说话大约每分钟120-200单词 ≈ 2-3单词/秒 ≈ 3-6 tokens/秒
  • 它是人的500-900倍!
  • 你还在说“Hello, my name is...”,AI已经能完成一页英文文档。

一本20万字的小说

  • 20万字 ≈ 200,000 tokens
  • 它只需70秒就能“读”完一整本。

多说无益,我们上视频对比下看看↓

主要功能有哪些?

  • 回答速度非常快,能让聊天更自然流畅。
  • 可以让用户“指定”输出的风格、长度、语气等细节。
  • 可以只修改一段话里的某个部分,而不用重新生成全部内容。
  • 能同时应对多个要求,比如要它生成一个有多项要求的答案。
  • 翻译能力很强,可以在多种语言之间准确转换。
  • 用的算力资源少,使用成本低。

核心技术解构与创新点

  • 什么是“扩散模型”?

    • 原理:先随便“生成”一堆带点噪声(有点像画一幅模糊草图),再慢慢地修正,逐步“抹掉”错误,最后变成一段高质量的文本。
    • 类比:就像画画时,先画一个大致轮廓,然后慢慢修改,细节越来越清楚。
  • 和老的AI模型(如GPT)有什么不一样?

    • GPT 类似“一笔写到底”,每次都从头生成后面内容;
    • ChatDLM 的“扩散”方式可以同时多处优化,更快,而且可以只修正一部分。
  • 技术亮点再通俗点说

    • 能快,是因为“并行”——像多个人一起画画,速度更快。
    • 能省钱,是因为用得更少的算力,效率更高。
    • 能随意改,是因为它不需要全部推倒重来。

1. Block Diffusion(分块扩散)机制

  • 基本原理:传统语言模型通常一次性处理整段文本,而 ChatDLM 会把输入文本拆分成许多“块”(如每块512个token),每块独立且并行进行扩散生成。每一轮,模型对每个块进行去噪和优化,通过“跨块注意力”机制,让各块能够互通全局信息,确保输出的一致性和上下文连贯。
  • 优势:这种分块和并行处理方法,使模型处理长文本时,运算复杂度显著降低,推理速度大幅提升,同时具备很好的全局一致性。

2. 块级并行(Block Parallelism)与上下文管理

  • 高效并行:所有块的反向生成过程可以同时进行,显著提升吞吐量。块之间通过“摘要token”实现上下文的全局共享,复杂度从传统的 O(n²) 降低到 O(n√n)。
  • 超大上下文支持:通过精心设计的位置编码(RoPE)和分层缓存策略,ChatDLM 能稳定地支持长达13万token的输入。这对于文档级生成、超长对话、跨章节内容分析等场景尤其有意义。

3. Mixture-of-Experts(专家混合)架构

  • 动态专家路由:每一层含有32到64个不同的“专家”子网络,输入数据会动态选择最适合的2个专家进行处理。
  • 并行执行:专家选择与扩散过程同时执行,表达力更强,推理效率几乎无损。
  • 实际效果:这种机制能让模型更灵活应对多样化、复杂的文本需求,提升理解和生成的深度。

4. GPU 推理和效率优化

  • 动态迭代分组:对每个块按难易程度分组,容易的块可以提前结束,节省计算资源,整体平均推理步骤约为12步。
  • 混合精度:全部矩阵和注意力操作采用BF16,确保计算精度的同时降低内存占用。
  • 分布式并行和切分:支持多GPU分布式推理与训练,方便模型大规模应用和部署。

性能如何

代码相关能力

  • ChatDLM在HumanEval(92.0)、MBPP(76.2)、EvalPlus(82.4)等多个代码测试上都为或接近最高分
  • Qwen2.5 7B、GPT-4o Mini在部分代码测试略有接近,但整体仍低于ChatDLM

综合推理与常识评测

  • MMLU: ChatDLM 69.5(与Qwen、LLaDA、LLAMA3持平或略高)
  • BBH: 57.6(仅次于Qwen2.5 7B的63.9)
  • ARC-E: 83.9(全表最高,遥遥领先)
  • ARC-C: 59.8(也为最高)
  • 其它如Hellawag、WinoGrande、PIQA、RACE,ChatDLM表现均处于第一梯队

数学与推理

  • GSM8K(小学数学): ChatDLM 77.2(高于大部分模型)
  • MATH(高等数学): 39.6(仅次于Qwen2.5 7B的41.1)
  • GPQA(科学推理): 36.6(略高于LLaDA 8B和Qwen2.5 7B)
  • Countdown/Sudoku/Trip Planning等任务: 绝对分数都不高,但ChatDLM在Sudoku表现突出(81.0)

  • 速度优势巨大
    ChatDLM的生成速度比其它所有对比模型快1-2个数量级,在实际大规模部署、实时交互、长文档生成等场景极具价值。
  • 综合能力领先
    在代码生成、文本理解、推理、常识、部分数学任务等权威基准上,ChatDLM均为全表第一或处于领先梯队,特别是在HumanEval、Fill-in-the-Middle、ARC-E等方面优势明显。
  • 极强的泛用性
    表格横向对比显示,ChatDLM在大多数领域(代码、推理、常识、数学等)没有明显短板,是少有的“全能型”模型。
  • 与自回归主流模型对比
    ChatDLM采用分块扩散推理,不仅速度更快,且能在多个任务上超越自回归方式的开源主流模型(如Qwen、LLAMA3、DeepSeek等)。

ChatDLM 未来要做什么?

  1. 多模态能力:不只会处理文字,未来还会处理图片、甚至声音。
  2. 更细致的内容控制:让用户想要什么样的输出,都能“精确调教”AI给你。

官方介绍:https://www.chatdlm.com/about/

在线体验:https://www.chatdlm.cn/