英伟达股票的空头观点简析 [译]

我曾在多家多空对冲基金担任通用型投资分析师近 10 年(包括在 Millennium 和 Balyasny 的任职),同时我还是一个对数学和计算机颇有兴趣的人,从 2010 年开始就一直在学习深度学习(那时候 Geoff Hinton 还在谈受限玻尔兹曼机(RBM),所有代码也大都用MATLAB编写,而研究人员还在努力证明他们在识别手写数字上能否打败支持向量机(SVM))。我想我对 AI 技术的发展以及这与股票市场估值之间的关系,可能有一种相对独特的视角。

在过去几年里,我更多地从事开发工作,并且有几个较受欢迎的开源项目,用于处理各类 AI 模型或服务(例如LLM Aided OCR、Swiss Army Llama、Fast Vector Similarity、Source to Prompt以及Pastel Inference Layer等)。基本上,我每天都非常密集地使用这些前沿模型。我有 3 个 Claude 账号以防请求次数不够用,而且一旦 ChatGPT Pro 一推出我就第一时间付费订阅了。

我也努力跟进最新的研究进展,认真阅读各大 AI 实验室发布的所有主要技术报告论文。所以我觉得自己对这个领域以及各方面的发展情况还算有较深入的了解。同时,我在股市里做空过大量股票,并在 Value Investors Club 上两次获得过“最佳创意奖”(分别是TMS 多头和PDH 空头,如果你有兴趣的话可以去看看)。

我并不是想炫耀什么,而是想说明我有一定的资历能同时对技术圈和专业投资者圈子的话题发表意见,而不至于显得过于天真。尽管肯定有人在数学或科学层面比我更懂,也有人比我更擅长股市多空操作,但能像我这样同时处在交集区域的人应该并不多。

说到这里,每当我和对冲基金圈的朋友或前同事碰面聊天,话题很快就会转向英伟达。毕竟很少有公司能在一夜之间从相对不显眼的状态一跃而成为市值比英、法、德三国股市总和还要高的公司!自然,这些朋友都想知道我对英伟达的看法。由于我对 AI 技术的长期变革性影响深信不疑——我真的相信在未来 5-10 年内,它会从根本上改变我们经济和社会生活的几乎方方面面,而且基本没有历史先例可循——要让我去论证英伟达的增长势头会放缓或停止其实挺困难的。

不过,尽管在过去一年里,我一直觉得英伟达的估值实在太高,但最近一系列新的迹象和发展让我逐渐产生了与主流共识唱反调的想法,开始更多地警惕是否已经“人人都懂”的事情被充分定价乃至溢价。正如那句名言所说:“智者相信的东西在开始时,愚者会在结束时相信”。

多头的观点

在探讨让我犹豫的一些新进展之前,我们先简单回顾一下市场对 NVDA 股价的普遍看多观点,这几乎是路人皆知的逻辑。深度学习和 AI 是自互联网以来最具变革性的技术,可能会改变社会的方方面面。而英伟达好像凭空获得了一个近乎垄断的地位,几乎占据了全行业在训练和推理基础设施投入资本支出(capex)的大部分市场份额。

微软、苹果、亚马逊、Meta、谷歌、甲骨文等这些世界上最大、最赚钱的公司纷纷决定——无论付出多少,都要在这个领域保持竞争力,因为他们无法承受在这场竞赛中掉队的风险。由此带来的资本支出总额、电力消耗(以吉瓦为单位)、新建数据中心的占地面积,以及 GPU 数量都出现了极度爆炸式增长,完全没有放缓迹象。而英伟达在高端数据中心产品上可以获得高达 90%+ 的毛利率,几乎近乎疯狂。

这只是多头观点的一部分。其他方面也让原本就看好英伟达的人更加乐观。比如类人形机器人(humanoid robots)的发展,我怀疑很多人会被它们在极短的时间内完成大量原本需要无技能(甚至部分有技能)劳动力的工作能力所震惊,比如洗衣、清洁、整理、烹饪,以及搞建筑、装修卫生间或团队协作建房子、管理仓库、开叉车等等。还有很多人甚至没想到的一些因素。

其中一个比较重要的讨论点是“新扩展的规模法则(scaling law)”的兴起,它带来了关于算力需求如何随时间增长的全新思路。此前一直推动 AI 进步的原始“规模法则”来源于预训练:也就是我们用尽可能多的标记(token)进行训练(已经到数百亿乃至万亿级别的 token),并且模型参数也越做越大,训练这些模型所使用的 FLOPS(浮点运算)也越来越多;然后我们发现模型对大量下游任务的表现会越来越好。

不仅如此,这种提升是可以一定程度上预估的——像 OpenAI 和 Anthropic 这样的一线 AI 实验室,通常在正式训练之前就能对新模型最后会在各种基准测试里达到什么水平做出非常接近的预测,误差范围内只有几个百分点。这个“原始规模法则”一直很重要,但也让人们对它的长远可行性存疑。

首先一个问题是,我们似乎已经把全世界所有高质量训练数据用得差不多了。当然,这并不是真的完全用光——毕竟还有很多老旧书籍和报刊还没被数字化,或者即使数字化了,也可能没有合法授权用于训练。但就算把这些都算上,比如从 1500 年到 2000 年之间“专业”产出的所有英文内容,和当下规模近 15 万亿训练标记的数据相比,其实增量就不算特别大。

为了对这些数字有点概念:Google Books 已经数字化了大约 4000 万本书;如果每本书平均有 5-10 万词,或者折合约 6.5-13 万个 token,那么仅这些书就有 2.6 万亿到 5.2 万亿个 token。当然,其中很大一部分可能已经被大模型(不管合法与否)纳入训练集了。再算上很多学术论文,光是 arXiv 就已有 200 多万篇论文。美国国会图书馆也数字化了超过 30 亿页报纸。全部加起来也许能到 7 万亿 token,但其中不少其实早就进入了训练语料,因此真正增量部分也并没有想象中那么大。

当然,还是可以想更多办法去搜集训练数据。比如把所有 YouTube 视频都自动转录成文本。或许这对模型有所帮助,但相比起一部享誉盛名的有机化学专业教材来说,这些文字的质量显然要差得多。因此,面对所谓的“数据天花板”,虽然我们还能继续往 GPU 和数据中心砸钱,但想大规模增加正确而又新增的“人类新知识”并不容易。于是也有人开始把主意打到“合成数据”上,即用 LLM 自己产出的文本来训练自己。虽然听起来像是“自给自足,越吸越嗨”般的荒诞做法,但在实践中,至少在数学、逻辑和编程领域,这招看起来非常管用。

原因在于,这些领域中我们可以通过数学或程序测试来机械验证是否正确。于是我们可以从浩瀚的数学定理空间或 Python 脚本空间里采样,然后只把通过了验证的结果收录进训练语料,这样就可以在这些方面大大扩展高质量训练数据。

当然还有其他各种数据类型可用于训练 AI,而不限于文本。比如如果我们拿到一亿人的全基因组测序数据(一个人的全基因组数据原始未压缩就有 200-300GB),那也确实是海量数据。不过:

  • 原始基因组大小和 token 数并非直接可比。
  • 基因组数据和文本的数据属性完全不同。
  • 高度冗余的数据对训练价值有限。
  • 处理基因组数据的计算需求也不同。

即便如此,未来要训练大模型时,这些仍是可以考虑抓取的多样化大数据来源。

因此,尽管我们也能看到一些增加训练数据的潜在希望,但看看近年来训练语料的增长速度就会发现,我们离真正实现“拥有比冯·诺伊曼还强十倍智商、而且通晓人类所有领域的人工超级智能”的目标,还有一段路,而“数据匮乏”是个很现实的问题。

除了数据有限这点外,“预训练规模法则”的另一大疑虑是:当模型训练完了,那么如何处置之前投入的所有计算基础设施?难道只好用来继续训练下一个模型?是可以这么做,但考虑到 GPU 每年都在升级换代,其计算能力翻几倍,且电费和相关运维成本在经济账上越来越重要,那两年前的机房集群未必值得再用来训练新模型——毕竟你肯定希望用新建的数据中心去训练,它虽然砸进去的钱也更多,但速度却可能是老一代的 20 倍。可这样一来,我们就面临这样一个问题:这些前期投入在财务上终究需要通过未来利润流加以摊销并获得回报吧?

目前市场对 AI 太过热情,以至于对这些问题并不关心,类似 OpenAI 这样巨额亏损的公司反而能在多轮融资中获得令人咋舌的估值(当然他们的营收增长也相当快)。可即便如此,长远来看,这些数据中心的投资迟早需要回本,并在风险调整后能与其他投资机会相竞争才算可持续。

新范式的出现

好了,这些就是“预训练规模法则”。那“新”规模法则是什么?就是过去一年里开始成为焦点的推理(inference)阶段的算力需求扩张法则。此前,绝大多数计算开销都集中在模型训练阶段;一旦模型训练好了,推理所需的计算量相对有限。

最关键的是,推理计算量与预训练不同,主要是线上推理时随着用户请求数线性增长——例如 ChatGPT 的使用量越大,所需的推理计算就越多。虽然上下文窗口变大、输出token数量变多时,推理计算量也会增大(好在研究人员在算法层面做出了惊人的优化,相比过去大家以为会出现的二次方级别增长已大为改善),但总体而言,以前推理花费一般远远小于训练阶段。

自从过去一年里出现了革命性的 Chain-of-Thought(简称 “COT”)模型——最显眼的是 OpenAI 的旗舰 O1 模型(以及不久前 DeepSeek 推出的 R1,我们下文会讨论)——推理计算方式彻底变了。以往推理时计算开销大多与输出文本的长度(以及模型大小、上下文窗口大小)挂钩;而 COT 模型在此基础上还会额外生成“逻辑 token”(可把它理解为模型在解决问题或执行任务时的“内部草稿”或“内部独白”)。

这带来了推理层面“质的飞跃”:因为现在,推理中所用的“思考过程”tokens 越多,模型最终输出的质量就越高。类似于给一个人更多时间和资源去做一项任务:他可以多重检查、反复对比,用不同思路求解并验证结果,直到对自己结论的正确性比较有信心。

实践中,这种做法简直有奇效:它结合了“强化学习”(reinforcement learning)和 Transformer 的强大性能,直接解决了 Transformer 模型最致命的弱点——“幻觉”(hallucination)。在传统 Transformer 的逐词预测中,一旦初始回答走上歧途,模型就像撒谎小孩那样圆谎,不会像人类一样在中途使用常识及时纠正。而有了多阶段的中间推理过程后,模型就能不断尝试并迭代,摆脱“前面说错了就错到底”的局限。

其最奇妙之处在于:推理阶段的链式思考 token 越多,输出就越准确。也就是说,你多给模型一些“中间推理token”的预算(消耗更多计算资源),它就能进一步降低错误率,甚至可能把代码一次性写对,不会出现显而易见的逻辑漏洞或推导失误。

我自己大量使用 Anthropic 的 Claude3.5 Sonnet 模型来写 Python 代码——坦白说,它已经非常棒了——但如果要生成比较长或复杂的代码,总是难免会有蠢错误。虽然后续把 Python 解释器的报错贴回去让它继续修即可,过程还算快捷,但也挺烦。如果工程量更大,调试就更花时间,有时甚至要人力手动查错。

当我第一次尝试 OpenAI 的 O1 模型时真是震惊:它居然很常能第一次就写出完全正确的代码,因为 COT 会在输出最终答案前,先在内部自动发现并修正错误。

更夸张的是,O1 模型在 ChatGPT Plus(每月 20 美元的订阅)和 O1-Pro(ChatGPT Pro,价格贵了 10 倍——200 美元/月)之间,本质上是同一个模型;O1-Pro 不同的是会在回答前“想得更久”,也就是多生成很多内部逻辑 token,消耗的推理算力也更大。

尤其显眼的是:同样一个上下文长度约 400KB+ 的复杂输入,在 Claude3.5 Sonnet 或者 GPT4o 上一般只需不到 10 秒就能开始输出回复,5 秒就能有回应,但 O1-Pro 模型可能要花 5 分钟甚至更久才会输出(OpenAI 确实会在计算中逐步给你展示一些“思考进度条”,但并不会把所有内部逻辑 token 公开给你,或许是出于商业机密原因,只给你看了一些高度摘要化的过程)。

你可以想象,对于那些对正确率要求极高的场景(例如金融交易、医疗、法律等),“慢工出细活”是必要的。只要推理成本比人力成本(例如法务、程序员的时薪)低很多,那么宁可多算一会儿也要确保答案正确,这当然是值得的。当然,如果我们想要更低延迟快速迭代,也可能暂时用少量逻辑 token 得到一个不太完美的答案,然后后续再改。

最近,AI 界最令人兴奋的新闻是大约几周前曝光的 OpenAI 新款 O3 模型:它能解决很多之前被视为短期内难以攻克的高难度任务(包括非常棘手的数学与理论难题),背后方法就是极度增加推理计算量——据称某些情况下,为解决单一任务就可能烧掉 3000 美元以上的算力(相比之下,传统 Transformer 模型的一次推理成本往往只要几美元,甚至更少)。

谁都能看出:这意味着一种完全独立于“预训练规模法则”的“新规模法则”。之前,我们以为只需要把模型训练好,一次推理并不算多贵。但现在,如果你真的想让模型在某些非常艰深的问题上达到“天才级”精准度,就可能要用极端的大规模推理算力。

为什么英伟达能独吞所有红利?

即使你和我一样深信 AI 的美好前景,问题依然在于:“为什么是某一家企业能够收割这一技术的大部分利润?” 历史上其实有很多重要的新技术最终并没让最早或者当前看似最有优势的公司赚到最大利润。莱特兄弟虽然发明了飞机,但他们的公司数度演变后市值也就几十亿美元,连英伟达市值的一个零头都不到。福特公司虽然体量不小,市值也就 400 亿美元,只是英伟达现在市值的约 1.1%。

要理解这一点,就得弄清楚英伟达当前为何能赚到这么多钱。毕竟它不是唯一一家做 GPU 的,AMD 也有不错的 GPU,从参数上看和英伟达 GPU 都是用类似的工艺节点制造,性能也不见得差到十倍。但英伟达在高端数据中心 GPU 上的市占率却极其高,AMD 无法在这个领域撼动它的地位;另一方面,英伟达的数据中心产品毛利率高达 90%+,跟半导体里别的品类比起来都堪称惊人。

如果我们对比另一高度集中的半导体细分市场——DRAM(主要厂商只有三星、美光和 SK 海力士),它们的毛利率在周期底部可能是负数,巅峰时才 60% 出头,平均水平在 20% 左右。可英伟达最近几个季度整体毛利率约 75%,而且这还被消费级显卡业务(本身利润率较低)拉低了。

为什么能这样?最主要原因和软件有关。英伟达 GPU 的驱动在 Linux 上表现非常好,而且深度学习最常用的开源框架(如PyTorch)对英伟达 GPU 的优化也很成熟。而 AMD 在 Linux 驱动方面问题频出,口碑不好。另外,开发者一般都使用 CUDA(英伟达的专有编程框架)来编写 GPU 加速代码,而 CUDA 已经成为事实上的行业标准。如果你想请一批年薪 65 万美元以上、会在 GPU 上写高性能代码的专家,他们很大概率只懂 CUDA。

软件优势之外,英伟达还有一大法宝就是“互连”(interconnect)技术——将成千上万块 GPU 高速连接到一起进行分布式训练时,带宽要非常高,传统数据中心网络设备满足不了这种需求。英伟达在 2019 年收购了以色列的 Mellanox(花了 69 亿美元),用它的技术来实现超大规模 GPU 集群之间的超高速互连。对分布式训练而言,互连特别重要:如果带宽不足,GPU 会频繁等待数据,无法被充分利用。

而推理(包括 COT 推理)一般可以用少量 GPU 就够了,只要有足够的显存(VRAM)存放训练好的模型权重。所以互连更多是用于训练时的优势。

这些因素构成英伟达的“护城河”。再加上英伟达通过超额利润来持续大规模投入研发,形成了一个正向循环,导致它们始终走在最前沿。

可另一方面也要看到:对于客户而言,如果抛开其他差异,只看每美元能买到多少 FLOPS(或者每瓦特性能),AMD GPU 在纸面上还更便宜。但在现实中,驱动、软件生态、专业工程师稀缺、互连等问题让 AMD 在高端数据中心市场“看起来很美,却不实用”,所以短期内也无法威胁英伟达的龙头地位。

这当然进一步印证了英伟达为什么能享受如此高的估值。但同时也让我们想到了一些未来可能的隐忧。我接下来要说的几大因素,要么这些年一直在慢慢酝酿,如今正准备爆发;要么是最近(甚至过去两周内)才出现的变化,可能会对 GPU 需求的边际增速产生显著影响。

主要威胁

从宏观角度看,可以把局面理解为:英伟达过去一直在一个相对小众的领域里耕耘,竞争并不激烈,对手也赚不到什么大钱,无法形成大规模威胁;游戏显卡市场虽然体量可观,但利润率一般也没现在这么夸张。直到 2016-2017 年开始,部分科技巨头加大了机器学习和 AI 的投入,但那会儿还只是 R&D 性质,并没有今天这么恐怖的投入规模。转折发生在 2022 年底 ChatGPT 推出后,AI 彻底进入大众视野,产业巨头们瞬间涌入,“求贤若渴”推高顶级 AI 科研人员和工程师的薪酬,一年烧掉数十亿美元建数据中心和购买 GPU 也不再稀奇。

所有这些变化并不会一蹴而就,毕竟数据中心建设周期就要一年左右,GPU 交付周期、招聘和培训工程师都需要时间。但现在可以想见,全世界对 AI 的投入正在以圣经般的规模快速增长。英伟达成了这个产业链里利润最多的一环,因而“树大招风”。下面这几股力量正在朝着英伟达发起全面挑战。

硬件层面的威胁

例如,初创公司 Cerebras 的“晶圆级芯片”(wafer scale)用于 AI 训练。它直接把一整块 300mm 的硅晶圆做成一块超大芯片,拥有数量级更多的晶体管和核心(参考他们的这篇博文,讲述如何解决“良率问题”使得这条路变得可行)。

Cerebras 最新的 WSE-3 芯片面积 46,225 平方毫米,而英伟达旗舰数据中心 GPU——H100 的芯片面积约 814 平方毫米(后者已经算业内很大了);对比下来是 ~57 倍的面积倍数!核心数量上,H100 有 132 个“流式多处理器”(Streaming Multiprocessor),而 WSE-3 上有约 90 万个核心(虽然每个核心要简单得多,但总量依然庞大)。如果按 AI 用途的有效 FLOPS 来粗比,WSE-3 大概是单颗 H100 的 ~32 倍。鉴于一块 H100 大约要价 4 万美元,可想而知这块 Cerebras 芯片也便宜不到哪儿去。

为什么这些重要?因为相比于英伟达依赖 Mellanox 的互连方案来把众多 GPU 组合起来,Cerebras 采用的思路是干脆把庞大的计算资源都放在同一块超大芯片上,减少了大量芯片间互连带来的带宽和延迟挑战。这样就不需要特别先进的互连网络也能实现大规模分布式训练或推理。

Cerebras 的芯片在推理阶段也表现非常好。你今天就能在他们的云服务上体验基于 Meta 的 Llama-3.3-70B 模型——响应几乎是瞬时的,推理速度达 ~1500 token/秒。要知道人对 30 token/秒以上的速度就会觉得够快了,10 token/秒也勉强够用,但 1500 token/秒完全是“瞬时输出”。

另一个类似的玩家是 Groq(别和 Elon Musk 的 X AI 训练的 Grok 系列模型混淆)。他们采取了不同的创新方案来绕过英伟达 CUDA 框架:他们提出了“确定性计算”(deterministic compute)的“张量处理器”(TPU)架构,时序完全可预测,没有 GPU 那种并发不确定性。这样就能从芯片设计和软件调度层面做大量极端优化。他们已经在 Llama 等模型上演示过 500 token/秒以上的推理速度,相比传统 GPU 集群要快得多。而且可以去他们的 Playground直接免费试。

用类似 Llama3 的模型结合“预测解码(speculative decoding)”技术,Groq 甚至能达到 1320 token/秒,与 Cerebras 不相上下。你可能会说 ChatGPT 现在每秒也就几十 token,用户已经觉得够流畅了。但是如果我们需要多次交互、串联推理或对延迟要求高(比如内容审核、欺诈检测、动态定价),每秒上千 token 意味着可以实现全新场景,而且单位时间内吞吐量也更高,大幅提升硬件利用率。

Groq 的硬件非常昂贵,一台服务器可能要 200-300 万美元,但如果推理速度比 GPU 快很多,在需求充足的情况下,这类解决方案在每次推理请求的总体成本上就可能更具优势。

和英伟达 CUDA 一样,Groq 的核心竞争力也在他们自研的软件栈。它能对开源模型做出深度底层优化,使得在自家硬件上推理极快。

Cerebras 和 Groq 都说明,仅靠跟随英伟达的 GPU 之路并尝试与 Mellanox 互连技术硬碰硬并不是唯一思路。而在当下这个 AI 需求如火箭般腾飞的时代,只要有更优的性价比,就能分流英伟达一部分高增长营收(哪怕这些初创公司的市占率暂时不大,也会影响市场对英伟达未来 2-3 年高速增长的预期)。

除了这些相对小众、激进的初创公司,英伟达最大的客户们(谷歌、亚马逊、微软、Meta、苹果等)也都在做自己的定制芯片,针对 AI 训练和推理。谷歌 2016 年就推出了自研 TPU,如今已经发展到第六代,虽说一度对外出售但后来基本自用。亚马逊也有自研的Trainium2和Inferentia2芯片。它们当然仍在采购大量英伟达 GPU,但同时也投下巨资自建数据中心使用这些自家芯片,比如给 Anthropic 搭建的那个拥有 40 万颗芯片的集群。

OpenAI 也宣布要自己做芯片,他们和微软加在一起就是英伟达最大的客户。微软自己也要搞定制芯片。苹果更不用说,它的自研芯片团队早就通过 A 系列、M 系列在移动 CPU 和 GPU 上大放异彩,尽管目前他们聚焦于移动端推理和一些自家的应用场景,但如果他们要给数亿 iPhone 用户提供更强大的云端 AI 服务,他们完全可能针对数据中心训练或推理进行深度布局。当然苹果向来保密,你可能很长时间都不知道他们到底做了啥。

值得注意的是,英伟达数据中心业务依赖极少数大客户,前几名就贡献主要营收和利润。结果这些 VIP 客户个个都在大力搞自研芯片,想从英伟达手中夺回更多主动权。毕竟英伟达本质是个 IP 公司,并不自己造芯片,真正的晶圆代工是 TSMC、设备是 ASML,任何一家有足够资本和人才储备的企业都能去 TSMC 下单做同等制程工艺的芯片。如果给出的薪酬够高,一些顶尖芯片设计师也可以从英伟达跳槽到这些巨头那里,2-3 年做出足以达到或八成功能的 GPU/AI 加速芯片。只要大体性能足够,绕过英伟达 90%+ 的毛利留给自己也就太划算了。

软件层面的威胁

硬件之外,软件层面过去两年也出现了一些重大动向,起初不算起眼,但如今快速崛起,可能对英伟达的 CUDA 壁垒造成严重冲击。第一点是 AMD 在 Linux 驱动上的糟糕表现。前面说了他们似乎并没有下多大力气去提升驱动质量。但是最近引人注目的是著名黑客 George Hotz(以少年时期越狱 iPhone 闻名,目前是自动驾驶创业公司 Comma.ai 和 AI 电脑公司 Tiny Corp 的 CEO),他因为痛恨 AMD 驱动太差,干脆自己写了一套 AMD GPU 的自研驱动和软件栈——不靠 AMD 官方支持。1 月 15 号他在公司 X 账号上发文说:“我们只差最后一步(RDNA3 汇编器)就能在 AMD 上彻底实现完全自主的软件栈,目前驱动、运行时、库、模拟器都只用约 12,000 行代码就搞定了!” 以他的能力和过往履历,几个月内做完并让其投入实际应用并非天方夜谭。一旦成功,将为行业打开更多使用 AMD GPU 的可能性。

这固然只是 AMD 的一小步,且尚未完成。但在更宏观的层面,还有几股软件趋势可能更具冲击力。比如如今业界正努力开发更通用的 AI 软件框架,将 CUDA 变成仅仅众多“编译目标”之一。也就是说,你用更高层次的抽象 API 写代码,然后系统会自动把这些高层逻辑编译成针对具体硬件(如 CUDA、AMD GPU、各家 TPU、定制 ASIC 等)的高效低层实现。代表性的如由苹果主导的 MLX、OpenAI 支持的 Triton,以及谷歌推出的 JAX。这些框架让你一次编码,就能跑在不同硬件平台上,不需要深入掌握每个平台的底层细节。这就像 80 年代软件大多用汇编写,因为编译器效率不高;后来随着编译器越来越好,C/C++ 成了主流,很少有人会为了那点性能差异去写汇编。AI 训练和推理代码也可能走这条路——让编译器去自动生成针对不同硬件的最优实现,进而摆脱对英伟达 CUDA 的锁定依赖。

还有一种可能是把 CUDA 也当成一种高层描述,然后用 LLM 自动移植到 Cerebras、Amazon Trainium2、Google TPUv6 等专用的低层代码上。其实这在 OpenAI 的 O3 模型上可能已经具备雏形,未来一年或两年内大概率可以大规模普及。这样一来,CUDA 的壁垒就更不牢固了。

理论层面的冲击

最近两周发生的事件更是让整个 AI 圈震动——但主流媒体几乎没有报道:一家名叫 DeepSeek 的小型中国初创公司发布了两个新模型DeepSeek-V3和DeepSeek-R1,性能接近当今世界顶尖大模型(OpenAI 和 Anthropic 水平),甚至超越 Meta 最新的 Llama 系列和其他开源对手如 Mistral。为什么这件事如此惊人?首先,DeepSeek 这家公司据说不到 200 名员工,背景似乎是原本做量化对冲基金的,后来在中国对私募行业的监管收紧后转做 AI。不管它背后是否有官方或军方背景,它们都对外发布了详尽的技术报告(DeepSeek-V3和DeepSeek-R1),这些报告非常硬核,若非熟悉线性代数和 Transformer 机制,恐怕难以看懂。更重要的是,任何人都可以下载DeepSeek 在苹果商店的免费应用(Android 版也有)或者直接网页版试一下,选“DeepThink”模式即可调用他们的 R1 模型,让它用通俗易懂的方式给你讲解报告中的细节。

你能从中发现几件事:

  1. 这个模型确实很厉害。AI 基准测试往往容易造假,谷歌就常宣传自家大模型多强,却常常在真实测试里不堪一击。但 DeepSeek 的表现很实在,对话质量和处理复杂任务的能力堪比 OpenAI 或 Anthropic。
  2. DeepSeek 不仅模型本身优秀,而且在训练和推理效率上有颠覆性的突破:他们声称训练 DeepSeek-V3 的成本大约只花了 500 万美元级别——而OpenAI、Anthropic 培训类似水平模型则往往是上亿美元量级。从一些测算看,这意味着在硬件利用和优化上,DeepSeek 的效率比西方主流实验室高 ~45 倍。

怎么可能?他们是怎么躲过美国政府对高端 GPU 出口的管制?难道他们买到的 H100 比外界想象中还多?也有人猜测 DeepSeek 实则深藏无数 H100,只是对外撒谎说只花了 500 万美元,以免惹麻烦。但从他们公开的技术细节看,更可能是他们真的以极高水平的算法和工程创新,实现了这种惊人的效率提升。

DeepSeek 的技术创新

DeepSeek 的主要创新之一是他们在训练阶段使用原生的 8 位浮点(FP8)精度,配合了许多独创的技巧,保证精度损失很小并能用远少于常规 GPU 数量来完成大规模训练。一般行业采用 32 位浮点来训练,再压缩到低精度,这中间会有较大损耗。DeepSeek 通过巧妙的分块、补偿机制,把 8 位精度的缺点降到最低。

他们另一个突破是多 token 并行预测(Multi-token prediction):传统 Transformer 推理是一次预测一个 token,而他们一次可同时预测多个 token,而准确率仍能保持在 85-90% 以上,并保证推理的因果链不被破坏。这实际相当于大幅加速了推理速度,却没怎么影响质量。

第三个大招是“多头潜在注意力(MLA)”机制,主要针对注意力里的 Key-Value 索引进行压缩,从而把训练和推理时的显存需求大幅降低。因为 Key-Value 对 Transformer 来说是极度占用 VRAM 的部分,而 DeepSeek 找到办法以一种可微、端到端训练的方式对其进行压缩。既减少了硬件需求,也可能改善模型泛化能力。

同时他们还提出了 DualPipe 算法和自研通信内核,大幅减少训练中通信和计算之间的等待时间,让 GPU 利用率大幅提高。再加上先进的 Mixture-of-Experts(MOE)结构,把整体模型拆成多个专业子模型,只有最相关的子模型会被激活,从而在相同内存条件下实现更大的模型容量。DeepSeek-V3 号称总参数量高达 6710 亿,但推理时只需调动 370 亿左右的子参数,就能在两块消费级 4090 显卡上跑起来。相比之下,Llama3 的最大模型是 4050 亿参数,需要昂贵的 H100 才能带动。

有传言说 ChatGPT 或 Claude 也有使用 MOE,但像 GPT-4 那样,如果总参数是 1.8 万亿,即使拆分成 8 个子模型,每个 2200 亿,也仍要多块 H100 才能跑。而 DeepSeek 这种更精细化的 MOE,辅以高效的负载均衡和可训练压缩机制,就让他们在大模型上依旧能保持非常低的实际硬件需求。

最直观的证据是 DeepSeek 的 API 价格远低于 OpenAI 和 Anthropic(有说法是便宜 95%)。鉴于英伟达硬件成本昂贵,OpenAI 或 Anthropic 的云 API 也未必真的有很高毛利,这两家公司更多是靠融资或战略占领市场。DeepSeek 这边如果真的比现行方案更节省几十倍硬件资源和电费,那就能轻易做出这么低的定价。

再说回 DeepSeek 的 R1 模型。它做的事更逆天:基本已实现与 OpenAI O1 类似的 Chain-of-thought 大规模推理效果,而且是完全开源和可自由使用的(OpenAI O1 还是闭源)。在 R1 的技术报告里,他们还提及了一个叫 “DeepSeek-R1-Zero” 的尝试,旨在用纯强化学习(不依赖大量人工标注的中间思路)让模型自动学会多步推理,并在碰到不确定时会自行重启思路。最关键的是,他们用一种规则化奖励取代了神经网络奖励模型,避免了“奖励作弊”;并且通过在语言一致性上加了一些奖惩,解决了 COT 模型可能出现的语言混乱(中英文混杂或语焉不详)的难题。R1 模型在 AIME 2024、MATH-500、Codeforces 等超高难度任务上几乎追平甚至略胜 OpenAI 的 O1。

带来的影响

据传 Meta 完全没料到 DeepSeek 进展如此之快,它们内部正在训练的 Llama4 还不如 DeepSeek-V3,而且 Meta 可能至少有十几位顶尖工程师的年薪各自都超过了 DeepSeek-V3 整个训练的开销;更别提 Meta 还疯狂砸钱买了十几万张英伟达 H100 做训练,而 DeepSeek 却只用了 2000 张 H100 左右。你让扎克伯格怎么想?毫无疑问,Meta 和其他大厂肯定也在疯狂研究这两篇技术报告和它们的开源代码,争取把这些效率优化都集成到自家流程里。

从宏观看,这可能意味着全行业对 GPU 的需求会骤降一个量级,哪怕不是 45 倍,也可能 25 到 30 倍的降低。因为以前以为要投入海量计算训练一个顶尖模型,现在可能只需要过去的几十分之一。这对英伟达 2-3 年内的数据中心 GPU 增量销售是一个不小冲击。

当然,有人会说:“就算我们一下子减少了这么多训练支出,但 AI 依然是指数级增长,最终还是可以把这些效率因素消化掉。” 的确,如果 AI 真能颠覆一切,带来万亿级别的市场,那么 GPU 需求依旧可能长期大涨。但英伟达股价早已把一切利好都计入,市盈率和市销率都很夸张。只要增速略有放缓或毛利率稍微下降,股价就可能受很大影响。

总结

英伟达当前正面临前所未有的多重竞争冲击,导致其以 20 倍 2025 年预期销售额、75% 毛利率对应的天价估值难以合理维持。该公司在硬件、软件以及整体效率方面的“护城河”正在出现裂缝。

  • 硬件:Cerebras、Groq 等颠覆性架构表明英伟达的互连优势并非牢不可破;Cerebras 的晶圆级芯片和 Groq 的确定性计算另辟蹊径。更关键的是,英伟达的大客户(谷歌、亚马逊、微软、Meta、苹果)都在自研芯片,这些不是小打小闹,而是真金白银投了几百亿美元进去,像亚马逊给 Anthropic 建的 40 万颗自研芯片集群,随时可能动摇英伟达最赚钱的高端数据中心业务。
  • 软件:MLX、Triton、JAX 等高层框架正迅速成熟,把 CUDA 仅作为可选编译目标,进一步冲击英伟达的垄断地位。要命的是,未来 LLM 也可以自动把 CUDA 代码移植到其他硬件上——CUDA 的主导地位就更难保持。
  • 效率突破:DeepSeek 用约 1/45 的成本训练出世界级别大模型,说明行业普遍可能在大规模“浪费”算力。随着 COT 推理成为主流,对推理算力的需求会大涨,但新的高效硬件架构也在崛起。英伟达若想保持 90%+ 毛利率并不容易。
  • 制造:TSMC 会给任何有钱的客户代工最先进芯片,这本质上削弱了英伟达的工艺垄断。只要有能力挖到英伟达顶尖芯片设计师,并给足资源,2-3 年就能做出足以匹敌甚至超越 H100 的定制硅。

历史经验告诉我们,市场最终会绕过那些可以带来“超额”利润的壁垒,想方设法消解它。眼下英伟达看似四面楚歌:Cerebras、Groq、各大云厂商自研、通用 AI 框架抽象化、DeepSeek 效率革命……无论哪一路成功突围,都可能从根本上动摇英伟达当前的增长预期或利润率。而英伟达的估值似乎并没有反映这些潜在风险。在目前这般高估值下,任何一个环节的小小变数,都足以让英伟达的股价面临显著下行压力。