OpenAI Agent Reseacher 姚顺雨(Shunyu Yao)发布了一篇文章,文章基于作者在斯坦福大学(Stanford 224N 课程)和哥伦比亚大学(Columbia)所做的演讲,探讨了人工智能(AI)发展的“第二阶段”(The Second Half)。

他认为当前AI发展已进入“下半场”(Second Half)。上半场以训练更强模型为核心,而下半场的关键是“定义问题”和“设计评估标准”,从模型驱动转向实用性和任务导向。

核心观点:

  • 上半场:模型方法不断突破,推动AI在围棋、考试、编程等任务中击败人类;
  • 下半场:模型能力已达门槛,焦点转向“如何定义有意义的问题”和“衡量实际效用”。

AI的“效用悖论”:为什么智商提高但GDP不动?

  • AI已胜过人类在象棋、SAT、编程竞赛等指标,但对经济影响有限。
  • 根因:目前的评估体系与真实世界需求脱节。
  • 因此,设计更“贴近现实”的任务与评估方式,是下半场的关键挑战。

新的循环机制(下半场):

  1. 构建新的任务与评估体系,贴近真实需求;
  2. 在此基础上使用通用配方解决任务;
  3. 迭代并打破旧设定,推动真正创新。

内容概要

AI 的发展可以分成两个阶段:

  • 第一阶段(The First Half):过去的 AI 研究主要是“怎么解决问题”。比如,设计更好的模型,让 AI 在考试(比如数学、翻译、图片识别)中拿高分。
  • 第二阶段(The Second Half):现在的 AI 已经很聪明了,单纯让它拿高分没那么重要了。接下来要研究的是“AI 该解决啥问题”,还有“怎么判断 AI 真的有用”,而不是只看考试分数。

第一阶段:AI 怎么变聪明的?

(1)过去 AI 做啥?

过去(第一阶段),AI 研究的重点是发明新方法,让 AI 在一些“考试”(叫基准测试,比如翻译、图片识别、下棋)中表现更好。就像学生刷题,目标是考高分。

(2)有哪些厉害的成果?

  • Transformer:2017 年发明的一种方法,让 AI 特别擅长处理语言(比如翻译、聊天)。它就像给 AI 装了个“超级大脑”。
  • AlexNet:2012 年的一种技术,让 AI 能认出图片里的东西(比如猫、狗)。
  • GPT-3:2020 年 OpenAI 推出的模型,能写文章、回答问题,特别聪明。

(3)第一阶段的套路

  • 发明新方法 → 用它解决一个问题(比如翻译)→ 在考试中拿高分 → 再找个更难的考试 → 继续发明新方法。
  • 比如:AI 先学会翻译英语到法语,考了个好成绩;然后再学翻译更难的语言,考更难的试。

(4)为啥第一阶段很成功?

  • 发明新方法很酷,需要很强的技术能力(像科学家做实验)。
  • 考试题目(任务)比较简单,直接从人类的工作里拿过来(比如翻译、下棋),不用想太多。
  • 新方法通常能用在很多地方,所以很值。

(5)但现在有啥问题?

  • 现在 AI 已经有了一个“万能方法”(general recipe):用超多数据和超级电脑,训练一个大模型(比如 Transformer),就能解决很多问题。
  • 比如 OpenAI 的 o3 和 o4-mini(2025 年刚出的模型),它们在数学、编程、图片分析上都很强(参考之前的 X 帖子)。
  • 因为有了这种“万能方法”,再发明新方法的意义变小了。就像你已经有了个很厉害的作弊器,考试再难也能过。

第二阶段:AI 该干啥?

(1)为啥要换个玩法?

  • 考试没意义了:AI 已经很聪明,考试分数再高也没啥用。比如,o3 在数学考试中得了 91.6%(很厉害),但这对普通人没啥直接帮助。
  • 用户想要真东西:大家更关心 AI 能不能解决实际问题,比如帮医生诊断疾病、帮学生学习,而不是只拿高分。
  • 新机会:如果能让 AI 干点实际的事,可能赚大钱(比如创造价值几十亿甚至上万亿的公司)。

(2)第二阶段的新玩法

  • 换个思路:别再问“AI 能不能解决这个问题?”(比如翻译),而是问“AI 该解决啥问题?怎么知道它真的有用?”
  • 新任务:找一些真实世界的问题,比如:

    • 帮医生更快发现癌症。
    • 帮学生学数学,定制学习计划。
    • 减少工厂的污染。
  • 新考试:别只看分数,要看 AI 是不是真的帮到人。比如,不是看 AI 翻译有多准,而是看它能不能帮外交官更顺畅地沟通。

(3)为啥第二阶段更难?

  • 想新问题很难:真实世界的问题很复杂,不像翻译、下棋这么简单。比如,医疗问题可能涉及医生、病人、政府,还要考虑钱、法律。
  • 判断“有用”很难:考试分数好算,但“帮到人”不好量。比如,AI 帮医生诊断,到底是看准确率,还是看病人满意度?
  • 需要新技能:以前 AI 专家只要会写代码、训练模型就行。现在得像“产品经理”一样,懂用户需求、会设计产品。

(4)第二阶段有啥好处?

  • 赚钱多:如果 AI 能解决真问题,可能创造很大价值(比如做个超级有用的医疗 AI,公司可能值很多钱)。
  • 帮人多:AI 可以让生活更好,比如让医生更准、学生学得更好、地球更干净。
  • 新机会:以前大家都在“刷题”(考试),现在可以去做更有意义的事,改变世界。

第一阶段和第二阶段有啥不一样?


全文翻译

tldr: 我们正处于 AI 的中场休息阶段。

几十年来,AI 的重点一直是开发新的训练方法和模型。这种策略很成功:从战胜国际象棋和围棋世界冠军,到在 SAT 和律师资格考试上超越大多数人类,再到获得 IMO 和 IOI 金牌。这些载入史册的里程碑背后——DeepBlue、AlphaGo、GPT-4 以及 o 系列——都有着 AI 方法的基础创新:搜索、深度强化学习、规模化和推理。AI 持续进步。

那么,现在到底有什么不同?

简单来说:强化学习(RL)终于有效了。更准确地讲:强化学习终于可以泛化了。经过多次重大迂回和里程碑事件,我们终于找到了一套有效的方法,能够用语言和推理解决大量不同的 RL 任务。一年前,如果你告诉大多数 AI 研究人员,一套方法可以同时解决软件工程、创意写作、IMO 级别数学、鼠标键盘操控和长篇问答,他们会觉得你在做梦。这些任务每一个都非常困难,许多研究人员甚至一辈子只专注于其中一小部分。

但这一切确实发生了。

接下来会发生什么?AI 的下半场,从现在开始,将从「解决问题」转移到「定义问题」。在这个新时代,评估(evaluation)会比训练本身更加重要。我们不再只是问:“我们能训练模型解决 X 吗?”,而是要问:“我们究竟应该训练 AI 做什么,我们如何衡量真正的进步?” 要在下半场获胜,我们需要及时调整心态和技能,更类似于产品经理的思维方式。

上半场

理解 AI 的上半场,可以从赢家们开始。你觉得迄今为止最具影响力的 AI 论文有哪些?

我试过斯坦福 224N 的小测验,答案并不出乎意料:Transformer、AlexNet、GPT-3 等。这些论文有什么共同点?它们提出了一些根本性的突破,以训练更好的模型。同时,这些论文的发表通常伴随某些基准测试的(显著)提升。

然而有个潜在的共性:这些“赢家”全部是训练方法或模型,而非基准测试或任务。甚至可能是最具影响力的基准测试 ImageNet 的引用数,也不到 AlexNet 的三分之一。方法与基准测试的差距在其他领域更加明显,例如 Transformer 所使用的主要基准 WMT’14,其报告引用数约 1,300,而 Transformer 本身则超过 16 万次。

这说明了上半场的玩法:专注于构建新模型和方法,而评估和基准只是次要(尽管发表论文时必不可少)。

为什么呢?主要原因在于,上半场 AI 的方法更难也更令人兴奋。从零开始创造新算法或模型架构——例如反向传播、卷积网络(AlexNet)或 GPT-3 使用的 Transformer——需要卓越的洞察力和工程能力。相反,为 AI 定义任务通常更加简单直接:我们只是把人类的任务(如翻译、图像识别或国际象棋)变成了基准测试,这并不需要太多洞察或工程能力。

方法也通常更通用、更广泛适用,使它们尤其有价值。例如,Transformer 最终推动了 CV、NLP、RL 等多个领域的进展——远超最初验证它的单个数据集(WMT’14)。一个优秀的新方法可以攀登多个不同的基准测试,因为它简单且通用,因此影响力远超单个任务。

这种玩法成功延续了几十年,引发了一系列改变世界的思想和突破,不断在各领域的基准测试上刷新纪录。那么为什么这种游戏规则会改变?因为这些思想和突破的积累最终创造了一个能有效解决任务的通用方法。

新方法(配方)

这个新方法是什么?组成部分并不意外,包括大规模语言预训练、数据和算力规模,以及推理与行动的结合。这些可能听起来像是硅谷每天的流行词,但为什么称之为配方?

我们可以通过强化学习(RL)的视角来理解这一点,RL 通常被认为是 AI 的“最终游戏”——理论上 RL 能够在游戏中必胜,实际上也很难想象 AlphaGo 等超人类系统离开 RL 会如何。

在 RL 中有三个关键组成:算法、环境和先验(priors)。很长时间以来,RL 研究人员主要关注算法本身(例如 REINFORCE、DQN、TD-learning、PPO 等),而环境和先验则被视为固定或次要的。

然而,在深度强化学习时代,环境在实证上变得非常重要:一个算法的性能往往高度依赖于它开发和测试的环境。如果忽略环境,你可能会构建一个在玩具环境中表现“最优”的算法。因此,为什么不先弄清楚我们真正想解决的环境,然后找到最适合的算法呢?

这正是OpenAI最初的计划。它构建了gym,一个用于各种游戏的标准强化学习环境,然后推出了World of Bits和Universe项目,试图将互联网或计算机变成一个游戏。很好的计划,对吧?一旦我们将所有数字世界变成一个环境,用智能强化学习算法解决它,我们就有了数字通用人工智能(AGI)。

计划很好,但并未完全奏效。OpenAI在这条路上取得了巨大进展,用强化学习解决了Dota机器人手等问题。但它从未接近解决计算机使用或网络导航,强化学习代理在一个领域的工作成果也无法迁移到另一个领域。显然缺少了什么。

直到GPT-2或GPT-3出现,才发现缺失的部分是先验。你需要强大的语言预训练来将通识和语言知识提炼到模型中,然后这些模型可以被微调成为网络(WebGPT)或聊天(ChatGPT)代理(并改变世界)。事实证明,强化学习最重要的部分可能甚至不是强化学习算法或环境,而是先验,而这些先验可以通过完全与强化学习无关的方式获得。

语言预训练为聊天创造了良好的先验,但对于控制计算机或玩视频游戏却不那么有效。为什么?因为这些领域的分布与互联网文本的分布相距较远,在这些领域上简单地进行监督微调(SFT)或强化学习泛化效果很差。我在2019年就注意到了这个问题,当时GPT-2刚发布,我在它之上进行SFT/强化学习来解决基于文本的游戏——CALM是世界上第一个通过预训练语言模型构建的代理。但代理需要数百万次强化学习步骤才能攀登单个游戏,且无法迁移到新游戏。虽然这是强化学习的特性,对强化学习研究人员来说并不奇怪,但我觉得很奇怪,因为我们人类可以轻松玩新游戏并在零样本情况下表现得更好。然后我迎来了人生中第一次“顿悟”时刻——我们之所以能泛化,是因为我们可以选择不仅仅是“去柜子2”或“用钥匙1打开箱子3”或“用剑杀死地牢”,我们还可以选择思考,比如“地牢很危险,我需要武器来战斗。没有可见的武器,所以我可能需要在锁住的箱子或柜子里找一个。箱子3在柜子2里,我先去那里解锁。”

思考或推理是一种奇怪的行动——它不直接影响外部世界,但推理的空间是开放的、组合式无穷的——你可以思考一个词、一句话、一整段文字,或10000个随机的英文单词,但周围的世界不会立即改变。在经典强化学习理论中,这是一个糟糕的交易,会使决策变得不可能。想象你需要从两个箱子中选择一个,一个箱子里有100万美元,另一个是空的,你的期望收益是50万美元。现在想象我添加了无穷多个空箱子,你的期望收益变成了零。但通过将推理加入任何强化学习环境的行动空间,我们利用语言预训练的先验来泛化,并为不同决策提供灵活的测试时计算。这是一件神奇的事情,我很抱歉在这里未能完全解释清楚,我可能需要再写一篇博文专门讨论这个话题。欢迎阅读ReAct,了解推理代理的原始故事以及我当时的感受。现在,我的直观解释是:即使你添加了无穷多个空箱子,你一生中在各种游戏中都见过它们,选择这些箱子会让你在任何特定游戏中更好地选择有钱的箱子。我的抽象解释是:语言通过代理中的推理实现泛化

一旦我们有了正确的强化学习先验(语言预训练)和强化学习环境(将语言推理作为行动),强化学习算法可能变成了最简单的部分。因此,我们有了o系列、R1、深度研究、计算机使用代理,以及更多即将推出的东西。多么讽刺的转折!长期以来,强化学习研究人员对算法的关注远超环境,几乎没人关注先验——所有强化学习实验几乎都从零开始。但我们花了几十年的绕道才意识到,我们的优先级可能完全应该颠倒过来。

正如史蒂夫·乔布斯所说:你无法在展望未来时连接这些点;你只能在回顾过去时连接它们。

下半场

这个配方正在彻底改变游戏。回顾第一半场的游戏规则:

  • 我们开发新的训练方法或模型来攀登基准测试。
  • 我们创建更难的基准测试并继续循环。

这个游戏正在被破坏,因为:

  • 这个配方基本上已经标准化和工业化了基准测试的攀登,不需要太多新想法。随着配方的扩展和良好泛化,你为特定任务开发的新方法可能只提升5%,而下一个o系列模型可能在没有明确针对的情况下提升30%。
  • 即使我们创建更难的基准测试,它们很快(而且越来越快)就会被这个配方解决。我的同事Jason Wei制作了一张漂亮的图表来很好地可视化这个趋势:

那么,第二半场还剩下什么可以玩?如果新方法不再需要,更难的基准测试也会越来越快被解决,我们该怎么办?

我认为我们应该从根本上重新思考评估。这不仅意味着创建新的、更难的基准测试,而是从根本上质疑现有的评估设置并创建新的设置,迫使我们发明超越现有工作配方的新方法。这很难,因为人类有惯性,很少质疑基本假设——你只是想当然地认为它们是假设,而不是定律。

为了解释惯性,假设你在2021年发明了基于人类考试的最成功评估之一。那是一个极其大胆的想法,但三年后它已经饱和了。你会怎么办?很可能会创建更难的考试。或者假设你解决了简单的编码任务。你会怎么办?很可能会找到更难的编码任务来解决,直到达到IOI金牌水平。

惯性是自然的,但问题在于:人工智能已经击败了国际象棋和围棋世界冠军,在SAT和律师资格考试中超越了大多数人类,并达到了IOI和IMO的金牌水平。但世界并没有因此发生太大变化,至少从经济和GDP的角度来看是这样。

我称之为效用问题,并认为这是人工智能最重要的难题。

也许我们很快就能解决效用问题,也许不能。不管怎样,这个问题的根本原因可能出奇地简单:我们的评估设置在许多基本方面与现实世界设置不同。举两个例子:

  • 评估“应该”自动运行,所以通常一个代理接收任务输入,自主完成任务,然后获得任务奖励。但在现实中,代理必须在整个任务中与人类互动——你不会只是给客户服务发一条超长消息,等待10分钟,然后期待一个详细的回复解决一切。通过质疑这种设置,新的基准测试被发明出来,要么让真实人类参与(例如Chatbot Arena),要么在循环中使用用户模拟(例如tau-bench)。
  • 评估“应该”是独立同分布(i.i.d.)的。如果你有一个包含500个任务的测试集,你会独立运行每个任务,平均任务指标,得到总体指标。但在现实中,你是按顺序而不是并行解决任务的。谷歌的软件工程师(SWE)随着对代码库的熟悉,会越来越好地解决google3问题,但一个SWE代理在同一个代码库中解决多个问题时却没有获得这种熟悉度。我们显然需要长期记忆方法(确实一些),但学术界没有适当的基准测试来证明这种需求,甚至没有足够的勇气去质疑作为机器学习基础的i.i.d.假设。

这些假设“一直”如此,在人工智能第一半场中,在这些假设下开发基准测试是没问题的,因为当智能较低时,提升智能通常会提升效用。但现在,通用配方在这些假设下保证能工作。因此,第二半场的新游戏规则是:

  • 我们为现实世界的效用开发新的评估设置或任务。
  • 我们用配方解决它们,或用新组件增强配方。继续循环。

这个游戏很难,因为它不熟悉。但它令人兴奋。第一半场的玩家解决视频游戏和考试,而第二半场的玩家通过将智能转化为有用的产品,打造十亿甚至万亿美元的公司。第一半场充满了增量方法和模型,而第二半场在某种程度上过滤了它们。通用配方会碾压你的增量方法,除非你创造新的假设来打破配方。然后你才能进行真正改变游戏规则的研究。

欢迎来到第二半场!

致谢

这篇博文基于我在斯坦福224N和哥伦比亚大学的演讲。我使用了OpenAI的深度研究来阅读我的幻灯片并撰写初稿。

原文:https://ysymyth.github.io/The-Second-Half/