Inception Labs 推出了一款全新的大语言模型 Mercury,与目前主流的Transformer模型不同,这是全球首个商用级扩散大语言模型(Diffusion Large Language Model,dLLM)。比现在常见的 ChatGPT(GPT-4o)、Claude 3.5、Gemini 1.5 快 10 倍,同时更准确、更智能、更省钱。
Mercury 采用 扩散模型(Diffusion Model) 进行文本生成,相较于目前主流的自回归(autoregressive)LLM(如 GPT-4、Claude 3.5、Gemini 1.5),它具备:
- 更快的推理速度(提升 5-10 倍)
- 更低的计算成本
- 更强的逻辑推理能力
- 更好的可控性(可局部修改文本、纠错、填充)
- 应用场景:包括编码、问答、代理任务(agentic applications)等,未来可能扩展至更多通用语言任务。
目前,Mercury 主要包括 代码生成 专用模型 Mercury Coder,未来还将扩展至 对话、智能代理、自动化推理 等应用领域。
🔹 什么是扩散大语言模型(dLLM)?
现有 LLM(如 GPT-4、Claude 3.5)的问题
目前主流的 大语言模型(LLM) 都是基于 自回归(autoregressive) 方式进行文本生成:
- 逐步按顺序 一个 token 一个 token 生成文本,每个 token 依赖于前面的输出。
这种方式在 长文本推理、复杂任务 方面有明显缺陷:
- 推理速度慢(尤其是长文本时,计算成本极高)
- 推理错误难以纠正(一个错误可能影响后续所有生成)
- 难以局部修改(必须重新生成整个文本)
- 易产生幻觉(hallucination),无法全局优化文本质量
扩散大语言模型(dLLM):全新解决方案
Mercury 采用 扩散模型(Diffusion Model) 进行文本生成,和 图像扩散(Stable Diffusion、Midjourney) 类似:
- 并行修改多个 token,而不是逐个生成
- 粗到细(coarse-to-fine) 逐步优化输出,而非简单预测下一个 token
- 能够全局优化文本结构,减少幻觉、提高一致性
🟢 扩散 LLM 的核心优势:
✅ 速度提升 5-10 倍(并行优化多个 token,提高吞吐量)
✅ 减少幻觉(Hallucination)(可以全局调整文本,不受前后 token 误差影响)
✅ 更好的可控性(支持局部修改、插入文本、填充等)
✅ 更强的推理能力(更擅长逻辑分析、代码生成、文档写作)
🔹 简单理解: GPT-4 生成文本 = 逐字拼写文章
Mercury 生成文本 = 一次性构思整篇文章,并反复润色优化
🔹 Mercury Coder:全球最快的代码生成 AI
Mercury Coder 是一款专门针对代码生成进行优化的 dLLM。在标准编码基准测试中,Mercury Coder 在众多基准测试中均取得了优异的质量,其性能通常超过 GPT-4o Mini 和 Claude 3.5 Haiku 等速度优化的自回归模型,同时速度最高可提高 10 倍。
1️⃣ 代码生成的突破
Mercury Coder 是 首款专为代码生成优化的扩散 LLM,相比于主流代码 LLM(如 GPT-4o Mini、Claude 3.5 Haiku),它具备:
- 生成速度快 5-10 倍
- 代码质量更高
- 兼容多种编程语言
- 可用于 AI 编程助手(类似 GitHub Copilot)
2️⃣ 速度对比:快 10 倍
Mercury Coder 在 NVIDIA H100 GPU 上的推理速度高达 1000+ tokens/sec,相比之下,GPT-4o Mini 仅 59 tokens/sec,速度提高 18 倍。
🔹 结论:
- Mercury Coder Mini 生成速度是 GPT-4o Mini 的 18 倍,也是 Claude 3.5 Haiku 的 16 倍。
- 速度接近以往只有 专用 AI 硬件(Groq、Cerebras) 才能实现的水平。
3️⃣ 代码质量评测
Mercury Coder 在 HumanEval、MBPP、EvalPlus、MultiPL-E 等基准测试中的表现超越大部分主流 LLM:
🔹 结论:
- Mercury Coder 代码质量与 GPT-4o Mini、Claude 3.5 Haiku 相当,但速度快 10 倍。
- 适合 GitHub Copilot、智能代码补全、AI 编程助手等应用场景。
🔹 Mercury LLM 未来应用
1️⃣ AI 聊天与对话
- Mercury Chat(即将发布):比 Claude 3.5 Haiku、GPT-4o 更快、更智能的 AI 对话系统
适用于:
- 智能客服
- 企业 AI 助手
- 自动化信息处理
2️⃣ AI 智能代理(Agentic AI)
dLLM 的高效推理能力,使其适用于:
- 任务规划
- 多步推理
- 自主 AI 代理(如 AutoGPT)
3️⃣ RAG(检索增强生成)
- 可用于企业知识库、法律 AI、医疗 AI
- 大规模企业文档处理
- 智能搜索引擎(比传统 LLM 更快、更精准)
4️⃣ Edge AI(边缘计算)
由于 Mercury 计算效率高,可在:
- 手机
- 笔记本
- 嵌入式设备 本地运行大模型(减少云端成本)
🔹 商业化与企业集成
Mercury 可通过 API 和本地部署 集成:
- SaaS 模式(云 API 访问)
- 本地部署(On-Premise)
- 兼容现有 GPU(无需特殊 AI 硬件)
- 支持企业级 AI 应用开发
目前已有多个行业巨头在测试 Mercury,作为 GPT-4 替代方案,以降低成本并提高 AI 速度。
目前 Mercury Coder 已开放测试,可前往 Inception Labs 官网申请体验