AI 时代进入了下半场
过去几十年,AI 的发展核心是创造新算法和新模型。这条路确实取得了卓越的成果:从击败国际象棋和围棋冠军,到超过大部分人类通过 SAT、律师资格考试,再到摘得国际数学和信息学奥赛的金牌。无论是历史上著名的 DeepBlue、AlphaGo、GPT-4,还是最近火热的 o 系列,这些里程碑背后都有一些基础性的创新:搜索算法、深度强化学习、模型规模扩展,以及推理能力提升。
AI 就这样一路稳步向前,那么,为什么现在突然出现了转折呢?
答案用一句话概括就是:强化学习(RL)终于好用了。更准确地说,强化学习终于具备了通用性。尽管中途经历过许多弯路,但经过了不断的积累和突破,AI 研究终于找到了一套行之有效的方法,能用语言和推理能力解决各式各样的任务。
即使一年前,如果有人对 AI 研究人员说:“未来,一种单一的算法就能搞定软件开发、文学创作、国际数学奥赛级别的难题、鼠标键盘的精准控制,还有长篇文章问答”,对方多半会觉得你是在痴人说梦。因为上述任何一项都是极其困难的挑战,不少研究者甚至整个博士生涯都专注于这些领域的其中一个狭窄部分。
但现在,它确确实实发生了。
接下来会发生什么呢?AI 的下半场刚刚开始,这个阶段的重点,将从“解决问题”转向“定义问题”。在新时代里,评估和衡量会比训练本身更重要。过去我们问:“能不能训练一个模型来解决 X 问题?”,现在我们要问:“我们究竟该训练 AI 去做什么?如何衡量它带来了真正的进步?”
想在 AI 的下半场取得成功,我们的思维模式和技能组合必须及时调整,或许我们更需要用产品经理的视角来看待问题。
AI 的上半场
回顾 AI 发展的上半场,看看那些真正胜出的成果。到目前为止,你认为最具影响力的 AI 论文是哪几篇?
我尝试了一下斯坦福大学 CS224N 课程里的一个小测验,答案其实并不意外:Transformer、AlexNet、GPT-3 等等。这些论文有什么共同之处呢?
- 它们都提出了更好的模型或更有效的训练方法。
- 它们都通过在一些测试基准(benchmark)上的明显提升发表了成果。
不过,还有一个更深层的共同点可能被忽视了:这些“赢家”都是训练方法或模型,而不是基准测试或者任务本身。即使是影响力最大的测试基准 ImageNet,它的引用数也不到 AlexNet 的三分之一。在其他领域,方法和测试基准的引用差距甚至更夸张。比如 Transformer 首次证明自己的基准测试 WMT'14 研讨会报告引用约 1300 次,而 Transformer 论文引用却超过了 16 万次。
这充分说明了AI 上半场的“游戏规则”:人们关注的是创造新模型、新方法,而评测与基准测试只是其次(虽然对论文发表仍然不可缺少)。
为什么会这样呢?一个重要原因是:在 AI 的上半场里,开发新方法远比定义新任务更难、更令人兴奋。从零开始设计一个新算法或新模型架构,比如反向传播(backpropagation)、卷积神经网络(AlexNet)或 GPT-3 的 Transformer 架构,这些都需要非凡的洞察力和工程能力。
相比之下,定义一个 AI 任务要简单得多,往往只是把人类本来就擅长做的事情(比如翻译、图像识别或下棋)拿来变成 AI 的测试基准,基本不需要太深刻的洞察或复杂的工程能力。
另外,一个新方法往往比单一任务更通用、更有广泛的适用性,这使得它们特别有价值。比如 Transformer 架构,不仅在最初的 WMT'14 翻译任务上表现出色,后来更是广泛应用于计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)等多个领域。优秀的新方法能在众多基准上不断攀登高峰,影响力也就远远超过单个任务。
过去几十年,这套玩法一直有效,持续催生了许多颠覆性的想法和突破,体现为各种测试基准成绩不断攀升。那为什么现在游戏规则要发生变化了呢?正是因为这些想法和突破的累积,已经达成了一个质的变化——让 AI 拥有了一套真正可以有效解决任务的通用“食谱”。
换句话说,AI 上半场的目标已经完成了,下半场要开启新的征程了。
AI 的成功配方
AI 走到今天,有没有一种真正行之有效的通用配方呢?答案是有的,它的成分看似熟悉:大规模语言预训练、数据与算力的规模化,以及推理与行动能力。虽然这些听起来有点像旧金山湾区每天都在炒作的流行词汇,但为什么要称之为“配方”呢?
我们可以从强化学习(RL)的角度来理解这个问题。RL 经常被认为是 AI 的“终极方案”,毕竟 RL 理论上保证了能够赢得游戏,从实践来看,很难想象像 AlphaGo 这样的超人类水平系统会缺少 RL。
强化学习中有三个关键组成部分:
- 算法(Algorithm)
- 环境(Environment)
- 先验知识(Priors)
长期以来,强化学习研究者们最关注的,几乎只有算法本身(如 REINFORCE、DQN、TD-learning、Actor-Critic、PPO、TRPO 等等),即智能体学习能力的核心机制。而对于环境和先验知识的关注却非常有限。例如经典的 RL 教科书《强化学习导论》(Sutton & Barto)几乎全部篇幅都在讲算法,而对环境和先验知识几乎只字未提。
然而,进入深度强化学习时代之后,人们逐渐意识到,环境对于算法性能有巨大的影响。一种算法在特定环境表现良好,但换一个环境可能表现就很糟糕。如果你忽视环境,可能最终只得到在“玩具环境”里表现优异的“最佳”算法。那么我们为什么不先明确需要解决什么样的环境问题,再寻找最适合的算法呢?
这正是 OpenAI 最初的设想。他们建立了gym,一个面向各种游戏的标准 RL 环境,然后启动了World of Bits 和 Universe 项目,希望将整个互联网或计算机转化为强化学习的环境。这看起来确实是个好主意,只要把所有数字世界都变成 RL 的环境,用智能算法去征服它们,我们就拥有了真正的数字 AGI(通用人工智能)。
虽然看似合理,实际却不顺利。OpenAI 确实在这个路上取得了巨大进展,比如用 RL 玩转了Dota、控制机器人手,但在更普遍的电脑使用或网页浏览任务上,却始终未取得理想的效果。而且,一个领域中成功的强化学习智能体,几乎完全无法迁移到另一个领域。明显有某种缺失的环节。
直到 GPT-2 或 GPT-3 的出现,我们才意识到,缺失的正是先验知识(priors)。你需要大规模的语言预训练,才能将人类的常识和语言知识先注入模型,再通过微调,发展成能上网(如 WebGPT)或能聊天(如 ChatGPT)的智能体,从而真正改变世界。原来 RL 最关键的部分,甚至不是 RL 算法,也不是环境,而是这些与 RL 本身毫无关系的先验知识。
然而,语言预训练创造出的先验知识,对于聊天而言效果很好,但用在电脑操控或电子游戏上却表现一般。这是因为这些领域距离互联网文本的分布更远,直接在这些任务上微调或用 RL 方法通常无法很好地泛化。
早在 2019 年,我就意识到这个问题,当时 GPT-2 刚刚问世,我利用 SFT/RL 方法在 GPT-2 上做文本游戏任务。CALM是全球第一个利用预训练语言模型构建的智能体。然而,这个智能体需要数百万次 RL 步骤才能勉强玩好一款游戏,而且无法迁移到新游戏。这对强化学习研究者来说再正常不过,但我当时觉得非常诡异,因为我们人类能快速适应全新的游戏,甚至在首次尝试就有很好的表现。
随后我人生中第一次“灵光一现”来了:我们之所以能够泛化,是因为我们不只是在游戏中执行具体动作(比如“去 2 号柜子”、“用 1 号钥匙打开 3 号箱子”、“用剑杀死怪兽”),我们还能思考推理(reasoning):“这个地牢很危险,我需要武器来战斗,现在看不到武器,所以我要在锁着的箱子或柜子里寻找,3 号箱子在 2 号柜子里,那我先过去开柜子吧。”
思考或推理,是一种非常特殊的“动作”——它并不直接作用于外部环境,然而推理的空间却是无限的、组合爆炸式的。你可以随便想一个单词、一句话、一整段文字,甚至一万个随机单词,但你身边的环境不会立即改变。在经典 RL 理论中,这种情况完全是灾难性的:你本来只有两个箱子,其中一个装有 100 万美元,另一个是空的,你期望收入 50 万美元;如果加入了无限多个空箱子,你的期望收入反而变成了零。然而,当我们把推理引入 RL 动作空间后,先验语言知识可以帮助智能体进行泛化,我们在决策时也能灵活使用推理计算。这是一件非常神奇的事,在此很难完全讲透,我可能需要另外写一篇博客才能真正解释清楚。如果你感兴趣,可以读读ReAct 论文,那是首次提出推理与行动结合构建智能体的工作。
简而言之,虽然我们加入了无限多个空箱子,但过去的人生经验让我们对这些箱子有先验知识,因此我们能更精准地挑出有钱的那个箱子。更抽象地说就是:语言通过推理,让智能体获得了泛化能力。
当我们拥有了合适的 RL 先验知识(语言预训练)和正确的 RL 环境(在动作空间中加入语言推理),RL 算法反而可能成为最简单的部分。这也是为什么现在出现了 o 系列、R1、深度研究、电脑智能体等等大量突破的原因。
真是具有讽刺意味:强化学习研究者们过去一直高度关注算法,忽视环境,更几乎从未关注过先验知识,每个 RL 实验都从零开始。然而我们花了几十年走弯路才终于意识到,或许我们的优先级应该完全反过来。
但就如乔布斯所说:你无法预先连接这些点,你只能在回头看时才发现它们彼此相连。
AI 的下半场
AI 的通用配方正在彻底改变整个游戏规则。
回顾一下 AI 上半场的游戏:
- 开发全新训练方法或模型,攻克各种测试基准(Benchmarks)。
- 不断创造更难的测试基准,形成循环往复。
但这个循环正在被打破,原因是:
- 这一通用配方本质上已经标准化、工业化了“攻克基准”的过程,不再特别需要创新方法。当配方可以很好地泛化时,你辛苦研发的新方法也许只提升了某个任务 5% 的表现,而下一个 o 系列模型,不针对这个任务,也能轻松提升 30%。
- 即使我们创造出更难的基准,它们也会越来越快地被配方解决。我的同事 Jason Wei 制作了一张非常直观的图来展示这个趋势:
那么在 AI 的下半场,还有什么游戏可玩呢?
如果创新的方法不再那么必要,更难的基准又越来越快地被解决,我们还能做些什么?
我认为,我们需要从根本上重新思考评估(evaluation)这件事。这意味着不仅要设计出全新的、更难的基准测试,更要质疑现有评估的基本假设,创造新的评估模式,从而倒逼我们开发超越现有配方的方法。
为什么做到这一点很难?因为人类有惯性,很少去质疑一些基本假设——我们习惯于默认这些假设为真理,却忘记了它们只是“假设”,而非自然法则。
例如,假设你在 2021 年发明了史上最成功的 AI 评估方式之一:基于人类考试的评测。三年后,这种评测被彻底攻破,你会怎么办?大概率会选择开发一个更难的考试。又或者你已经解决了简单的代码编写任务,下一步怎么办?可能你会不断找到更难的代码任务,直到 AI 达到国际信息学奥赛(IOI)的金牌水平。
这种惯性很自然,但问题来了:
AI 已经击败了国际象棋和围棋的世界冠军,超过了大多数人类在 SAT 和律师资格考试中的表现,甚至达到了国际数学奥赛(IMO)和国际信息学奥赛(IOI)金牌的水平——然而,这个世界却并未因此发生什么明显改变,至少从经济指标和 GDP 角度来看没有明显提升。
我把这个现象称作“效用问题”(Utility Problem),并认为这是当前 AI 领域最重要的问题之一。
也许我们很快能解决效用问题,也许不会。但无论怎样,这个问题的根本原因可能非常简单而隐蔽:我们的评测设置与真实世界的设置存在巨大差距。
举两个具体的例子:
- 过去评测的基本假设之一是:“评估应该自动进行”。通常一个智能体拿到任务输入,自动执行,最终获得一个任务奖励。但真实世界中,智能体必须持续地与人类互动。你并不会给客户服务发一个超长的消息,等 10 分钟,再指望对方用一条长信息解决所有问题。通过质疑这一假设,我们产生了新的基准:例如真正与真人互动的评测环境(如Chatbot Arena),或在评测中加入用户模拟(如tau-bench)。
- 另一个假设是:“评估应该独立同分布(i.i.d.)地运行”。例如你有 500 个测试任务,每个任务独立运行,最终把结果取平均。但现实世界中,你往往是连续地解决任务,而不是同时并行地解决。Google 的软件工程师会因为对代码库逐渐熟悉,而越来越高效地解决问题。但一个 AI 的软件工程智能体在处理大量问题时却几乎不会有这种熟悉感的提升。我们显然需要能记忆的智能体方法(确实也有这样的研究,如这里和这里),但学术界却没有足够合适的基准来体现这个需求,甚至缺乏质疑独立同分布假设的勇气——毕竟这个假设是机器学习研究的基础。
这些假设“一直都这样”,在 AI 的上半场设计基准时并没有太大问题,因为当 AI 能力还很弱时,提高智能往往可以直接提高效用。但现在,我们的通用配方在这些假设之下已经注定成功。
因此,下半场的新玩法变成了:
- 开发全新的评估模式或面向真实世界效用的任务。
- 用现有的通用配方解决这些任务,或者在配方基础上加入创新的组件,形成新循环。
这个新玩法非常困难,因为它很陌生。但也非常令人兴奋:
- 上半场的玩家们解决的是电子游戏和考试,而下半场的玩家们则可以通过利用智能来创造真正实用的产品,建立数十亿甚至数万亿美元的公司。
- 上半场充满了渐进式的模型和方法创新,但在下半场,这些小的创新很难与通用配方竞争,除非你质疑现有假设并创造新的玩法,从根本上超越已有的配方。只有这样,才能产生真正改变游戏规则的研究。
欢迎来到 AI 的下半场!
致谢
本文基于我在斯坦福大学 224N 和哥伦比亚大学的演讲。我使用 OpenAI 深度研究模型读取了我的幻灯片并完成初稿。
姚顺雨 2025 年 4 月 10 日撰写完成