信息差

重磅！DeepSeek跃居全球AI实验室第二把交椅，与谷歌比肩，开源领域稳坐...

@ArtificialAnlys 发表文章称 DeepSeek 刚刚发布的模型 R1 的后训练更新版本 R1-0528，显著提升了模型在多个智能评估中的表现，得分跃升至 68 分，与 Google Gemini 2.5 Pro 并列为全球第二，仅次于 OpenAI 系列。

跻身全球第二大人工智能实验室行列。

此次更新并未更换架构，而是通过强化学习技术优化模型推理能力，使其在数理、代码生成、科学推理等多项能力指标上大幅进步，展现出深厚的后训练调优能力。同时，token 使用量的增加也说明其响应更加详尽、考虑更全面。

在全球 AI 格局中，这标志着开源模型在智能能力上已接近闭源顶级模型水平。更重要的是，来自中国的 DeepSeek 正逐步缩小与美国领先 AI 实验室之间的差距，在某些领域已实现领先。

这一趋势说明，通过强化学习等策略的精细调优，即便在计算资源不如 OpenAI 的前提下，其他 AI 实验室也有机会追赶并接近最先进的智能表现。

Artificial Analysis (@ArtificialAnlys) 发布于 5 月 29 日：

DeepSeek 的 R1 超越了 xAI、Meta 和 Anthropic，与 Google 齐肩成为全球第二大 AI 实验室，同时稳坐开源权重模型的头把交椅。

DeepSeek R1 0528 在我们独立运行的 7 项主要评估组成的 Artificial Analysis Intelligence Index 中得分从 60 提升至 68。这个涨幅相当于 OpenAI 的 o1 与 o3（从 62 到 70）之间的差距。

这使得 DeepSeek R1 智能水平高于 xAI 的 Grok 3 mini（高配版）、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253，并与 Google 的 Gemini 2.5 Pro 持平。

模型提升细节如下：

🧠 全面提升智能水平：在 AIME 2024（竞赛数学，+21 分）、LiveCodeBench（代码生成，+15 分）、GPQA Diamond（科学推理，+10 分）、Humanity’s Last Exam（推理与知识，+6 分）方面表现尤为突出。
🏠 架构未变：R1-0528 是一次后训练更新，未改变 V3/R1 架构——仍是一个拥有 671B 总参数（37B 激活参数）的超大模型。
🧑‍💻 编程能力显著增强：在人工分析编程指数中，R1 现已与 Gemini 2.5 Pro 持平，仅落后于 o4-mini（高配）和 o3。
🗯️ Token 使用显著增加：R1-0528 在评估中使用了 9900 万个 token，比原版 R1 的 7100 万多出 40%。也就是说，新版本“思考更久”。但这仍不是最高，Gemini 2.5 Pro 使用的 token 数比 R1-0528 还多 30%。

关于 AI 的一些结论：

👐 开源与闭源模型的差距空前缩小：开源权重模型依然能保持与专有模型相当的智能增长。DeepSeek R1 自一月首次登顶全球第二后，此次更新再次回到同一位置。
🇨🇳 中美技术角力并驾齐驱：中国 AI 实验室的模型已几乎追平美国同行。本次发布再次延续这一趋势。目前，DeepSeek 在 AI 智能指数上领先 Anthropic 与 Meta。
🔄 强化学习推动智能提升：DeepSeek 在架构和预训练不变的前提下，通过后训练（尤其是强化学习）显著提升智能，验证了 RL 在推理模型中的关键作用。OpenAI 在 o1 到 o3 之间扩大了 10 倍 RL 计算量，而 DeepSeek 表现出其有能力跟上这一节奏。与预训练相比，扩展 RL 所需计算资源更少，效率更高，有利于资源有限的 AI 实验室。

如果觉得文章对你有用，请随意赞赏

快讯

重磅！DeepSeek跃居全球AI实验室第二把交椅，与谷歌比肩，开源领域稳坐...

破晓

2025-05-30

2025-05-30

CC BY 4.0