信息差

幻方量化推出DeepSeek-V3：性能比肩GPT-4，训练成本大幅降低

幻方量化于12月26日晚发布全新一代大模型DeepSeek-V3，展现出惊人的技术突破。这款采用MoE（混合专家）架构的模型不仅在性能上媲美顶级闭源模型，其低成本高效率的特点更是引发业界关注。

从核心参数来看，DeepSeek-V3拥有6710亿参数，其中激活参数为370亿，在14.8万亿token的数据规模上完成预训练。相比前代产品，新模型的生成速度提升了3倍，每秒可处理60个token，显著提升了实际应用效率。

在性能评测方面，DeepSeek-V3展现出卓越实力。它不仅超越了Qwen2.5-72B和Llama-3.1-405B等知名开源模型，更在多项测试中与GPT-4和Claude-3.5-Sonnet不相上下。特别是在数学能力测试中，该模型以优异成绩超越了所有现有开源和闭源模型。

最引人注目的是DeepSeek-V3的低成本优势。根据开源论文披露，按每GPU小时2美元计算，模型全部训练成本仅为557.6万美元。这一突破性成果得益于算法、框架和硬件的协同优化。OpenAI联合创始人Karpathy对此给予高度评价，指出DeepSeek-V3仅用280万GPU小时就达到了超越Llama3的性能，计算效率提升了约11倍。

在商业化方面，DeepSeek-V3的API服务定价虽较上一代上调，但仍保持较高性价比。新版本定价为每百万输入tokens0.5-2元，输出tokens8元，总成本约为10元人民币。相比之下，GPT-4的同等服务价格约为140元人民币，价格差距显著。

作为一款全面开源的大模型，DeepSeek-V3的发布不仅展示了中国AI技术的进步，更为开发者和企业提供了一个高性能、低成本的AI解决方案。

如果觉得文章对你有用，请随意赞赏

快讯

幻方量化推出DeepSeek-V3：性能比肩GPT-4，训练成本大幅降低

https://soraor.com/archives/ai-today_20241227181558

作者

破晓

发布于

2024-12-27

更新于

2024-12-27

许可协议

CC BY 4.0