在 Google I/O 2025 上Google DeepMind首次公开了其正在开发的前沿技术 —— Gemini Diffusion,这是一种将扩散模型应用于语言建模的全新方法。

什么是 Gemini Diffusion?

  • 传统语言模型(如 GPT)采用自回归(autoregressive)机制,一次生成一个 token。
  • Gemini Diffusion 则借鉴图像生成领域的“扩散模型”机制——通过逐步去噪的方式生成完整输出。

这种非因果(non-causal)推理方式带来了两个重大优势:

  1. 惊人的生成速度:可达 2000 token/秒,包括 tokenization、预填充、过滤等全部计算流程。
  2. 更强的全局推理能力:不依赖一步步线性生成,能够在整体范围内思考问题。

模型原理

🆚 与传统自回归模型的区别

  • 自回归模型(如 GPT、PaLM 等):

    • 按顺序预测下一个词(token),一个接一个生成。
    • 优点:结构简单、广泛应用。
    • 缺点:生成速度慢、全局连贯性受限。
  • Gemini Diffusion 模型(基于扩散机制):

    • 核心思想:从随机噪声中逐步“去噪”生成文本,类比于图像扩散模型(如 Stable Diffusion)。
    • 每一步不是直接生成词,而是对当前生成的内容进行微调和纠错。
    • 能更快实现内容构建,并能在生成过程中进行错误修正(error correction)。

主要优势

  • 工作方式:先将一个“完整的文本表示”加入噪声破坏,然后训练模型逐步“去噪”,恢复为合理文本。

    优势:

    • 允许整体式生成:可以一开始生成一个大致草稿,然后反复迭代改进;
    • 天然支持纠错与编辑:因为本质上每一步都在“调整”内容;
    • 适合复杂结构的生成:如数学、编程语言,要求结构和语义严谨。

🧩 自然的纠错机制

  • 传统模型生成错误需要外部工具检测与重写。
  • 扩散机制本身包含逐步修正过程,使得输出更流畅、准确。

🧮 数学与代码处理能力强

  • Gemini Diffusion 在“可验证的结构化内容”上表现优越。
  • 例如:数学表达式、程序代码,需满足语法正确性与逻辑一致性,扩散模型更擅长这类“编辑式生成”。

案例演示

1. 编程场景表现卓越

Gemini Diffusion 特别擅长代码生成,Brendan 称之为“vibe coding”体验:几乎是实时写出高质量代码。

实测速度达 2000 tokens/秒,这个速度包括了:

  • tokenization
  • 预填充(prefill)
  • 安全过滤
  • 输出合成

👉 对比 GPT-4/Claude 等自回归模型,速度提升非常显著,适合高频互动或低延迟场景(如代码编辑器、聊天机器人等)。


2. 复杂数学问题也能轻松解决

传统语言模型(如 GPT-4o)在面对“先答后解”、“跨步骤逻辑”的数学题时容易失败,因为它们是逐步预测的,每一步都会放大之前的错误。

Gemini Diffusion 采用非因果结构,可以“先构建完整答案的逻辑框架,再填充细节”。

📌 示例问题 1:
题目:「(√(81) * (2/3))² + (15 - 3) / (2²)」请先给出答案再推导过程。
答案:39

✅ Gemini Diffusion 正确完成,GPT-4o 未能解出。
📹


3. 非线性、多步骤推理能力

📌 示例问题 2:
题目:「150 到 250 之间有多少个质数?先输出数量,再列出所有质数。」
答案:18 个质数,列表输出为 [151, 157, ..., 241, 251]

✅ Gemini Diffusion 准确完成,GPT-4o 同样失败。
📹


4. 非自回归结构 = 推理不再被“顺序”限制

扩散机制的非自回归特性让模型可以全局优化答案结构,解决那些需要“先知道结尾再写开头”的任务,打破传统 token-by-token 限制。

应用前景与影响

✅ 应用场景

  • 高可靠性语言生成(如金融、法律、医疗文本)
  • 编程辅助工具(代码生成、错误修复)
  • 数学问题自动解答
  • 文本编辑、润色、重写任务

🚀 技术前景

  • 有望与图像/语音等多模态扩散模型融合;
  • 打破现有大型语言模型范式,形成“后自回归时代”的新一代架构;

官方介绍:https://deepmind.google/models/gemini-diffusion/