幻方量化于12月26日晚发布全新一代大模型DeepSeek-V3,展现出惊人的技术突破。这款采用MoE(混合专家)架构的模型不仅在性能上媲美顶级闭源模型,其低成本高效率的特点更是引发业界关注。

从核心参数来看,DeepSeek-V3拥有6710亿参数,其中激活参数为370亿,在14.8万亿token的数据规模上完成预训练。相比前代产品,新模型的生成速度提升了3倍,每秒可处理60个token,显著提升了实际应用效率。

image

在性能评测方面,DeepSeek-V3展现出卓越实力。它不仅超越了Qwen2.5-72B和Llama-3.1-405B等知名开源模型,更在多项测试中与GPT-4和Claude-3.5-Sonnet不相上下。特别是在数学能力测试中,该模型以优异成绩超越了所有现有开源和闭源模型。

最引人注目的是DeepSeek-V3的低成本优势。根据开源论文披露,按每GPU小时2美元计算,模型全部训练成本仅为557.6万美元。这一突破性成果得益于算法、框架和硬件的协同优化。OpenAI联合创始人Karpathy对此给予高度评价,指出DeepSeek-V3仅用280万GPU小时就达到了超越Llama3的性能,计算效率提升了约11倍。

在商业化方面,DeepSeek-V3的API服务定价虽较上一代上调,但仍保持较高性价比。新版本定价为每百万输入tokens0.5-2元,输出tokens8元,总成本约为10元人民币。相比之下,GPT-4的同等服务价格约为140元人民币,价格差距显著。

作为一款全面开源的大模型,DeepSeek-V3的发布不仅展示了中国AI技术的进步,更为开发者和企业提供了一个高性能、低成本的AI解决方案。