随着中国 AI 公司 DeepSeek 推出的推理模型 DeepSeek-R1在全球范围内受到关注,其在第三方平台的稳定性表现成为近期科技圈的热门话题。根据 X 平台上的最新讨论和评测数据,DeepSeek-R1在不同托管平台上的性能差异显著,完整性、准确性和推理时间因平台选择而异。这一现象不仅揭示了模型部署的复杂性,也为用户选择适合的托管服务提供了重要参考。

测试背景与方法

根据 X 用户和专业评测机构的反馈,近期一项针对 DeepSeek-R1的跨平台稳定性测试引发了广泛关注。测试由中国软件评测中心人工智能部牵头,选取了包括纳米 AI 搜索、阿里百炼、硅基流动等在内的十余家国内外第三方平台,使用统一的20个基础数学推理问题(由 SuperCLUE 团队开发)作为基准。评估主要聚焦三个维度:响应率、准确性以及推理时间,同时分析了免费与付费服务的差异。

image

图源备注:图片由AI生成,图片授权服务商Midjourney

测试结果:稳定性差异显著

测试结果显示,DeepSeek-R1的稳定性高度依赖托管平台。纳米 AI 搜索因接入“满血版” DeepSeek-R1并免费提供,表现尤为突出。X 用户 @op7418在2月27日发帖称:“纳米 AI 搜索第一时间接入了满血版 DeepSeek-R1,在评测中表现优秀。”这一平台以高响应率和稳定的输出赢得好评,被认为是对周鸿祎“AI 普及化”理念的践行。

然而,其他平台的表现则不尽如人意。X 用户 @simonkuang938在2月24日指出,阿里百炼的 DeepSeek-R1在处理复杂逻辑任务(如绘制图表或流程图)时,经常因显存消耗过高而被截断输出,导致客户端卡顿,尽管连接未断开。他戏称这种体验“贱贱的”,反映出部分用户对稳定性的不满。

相比之下,硅基流动因限制赠金使用并提供稳定的付费版本,获得了 @simonkuang938的肯定。他在2月22日表示:“像硅基流动这么良心的平台太少啦,R1是满血版且没有经过魔改。”这表明付费服务在稳定性上可能更具优势。

用户体验与技术细节

从 X 上的用户反馈来看,DeepSeek-R1在不同场景下的表现也各有千秋。@changli71829684在2月25日提到,R1在单次对话输出超过3000字时容易陷入死循环,尽管其信息密度高,适合知识挖掘,但准确度和生产质量稍显不足。他认为该模型更适合“开脑洞”而非精确任务。此外,@oran_ge在1月29日测试 DeepSeek R1Zero 时发现,其未经监督微调(SFT)的版本在简单问题上表现怪异,例如回复“你好”时输出数学公式,显示出模型在特定场景下的不稳定性。

值得一提的是,部分用户尝试优化 R1的使用体验。@oran_ge在2月12日分享了一种通过 API 联网的方案,称其“实测是最稳定速度最快的 R1使用体验”,彻底解决了卡顿和联网问题。这一探索表明,平台之外的技术配置也可能影响稳定性。

行业意义与用户建议

此次跨平台测试不仅暴露了 DeepSeek-R1在部署上的挑战,也引发了关于开源模型商业化与稳定性的讨论。X 用户普遍认为,尽管 DeepSeek-R1在数学和编程基准测试中表现出色(如 MATH-500得分97.3%),但其实际应用中的稳定性仍需优化。免费服务的流量压力和高负载可能导致性能下降,而付费平台通过资源分配提供了更可靠的体验。

对此,业内人士建议用户根据需求选择托管平台。对于追求高响应率和完整输出的开发者,纳米 AI 搜索或硅基流动等表现稳定的服务是不错选择;而对于需要处理复杂推理任务的用户,付费平台可能更能满足需求。同时,DeepSeek 官方被呼吁提供更多硬件支持或付费层级,以缓解免费服务的拥堵问题,正如 @GrayPsyche在2月8日帖文中所期待的那样。

DeepSeek-R1的第三方平台稳定性测评揭示了一个关键事实:模型的潜力虽大,但其实际表现因托管环境而异。从纳米 AI 搜索的高效免费服务,到阿里百炼的截断问题,再到硅基流动的稳定付费体验,用户选择需权衡成本与性能。随着 AI 技术的普及,DeepSeek-R1的未来发展及其在全球市场的竞争力,或将取决于其能否解决这些稳定性挑战。X 平台的热议仍在持续,这一话题无疑将继续引领行业关注。