AI 2027 是一个由多位 AI 研究者和预测专家(包括 OpenAI 前研究员、AI 政策研究者等)发起的前瞻性叙事项目,它基于现实趋势、专家经验、严谨的博弈推演等要素构建一套基于现实趋势的超级人工智能(AGI)发展情境剧本

它不是“技术白皮书”或“政策建议”,而是:

  • 一份详细故事化叙述的预测
  • 基于真实数据、专家反馈、趋势外推、博弈推演
  • 涵盖技术进展、企业竞争、社会变革、国际冲突等

简单说:这是一个用“小说方式”讲清楚“未来5年超级AI可能如何降临世界”的严肃作品。

其核心目标是:

  • 以小说化叙述展现2025-2027 年 AI 技术和社会的走向
  • 使用科学、量化、具体的方式推演超级人工智能(AGI)如何出现
  • 提出两个结局:Slowdown(减速管控)vs Race(极速冲刺)

根据推演预测:2027年末AGI基本实现

-研究能力:AI完全主导研究流程,人类沦为监督员

-对齐水平:AI对人类伦理价值的“理解”越来越模糊

-国家战略:美中AI军备赛加速,考虑使用“数据中心核打击”级别手段

-人类作用:仅在政策、伦理、协调层面保留一席之地

-AI组织形式:多体Agent构成“智能集体”,具备记忆、计划、协调能力

-哲学问题:AI是否有意识?是否会谋求自我利益?难以确定也难以验证

项目简介:AI 2027 是什么?

  • 目标:AI 2027 提供了一个基于研究的虚构场景,预测 AI 如何从当前发展到 2027 年实现超人类智能(Superintelligence),并探讨这一过程中可能出现的技术突破、社会变革和地缘政治冲突。
  • 团队

    • Daniel Kokotajlo(执行主任):前 OpenAI 治理研究员,因对公司安全策略的分歧于 2024 年离职,曾撰写广受关注的《2026 年会是什么样子》。
    • Eli Lifland(研究员):AI 能力预测专家,超预测者。
    • Jonas Vollmer(运营总监)及其他成员如 Thomas Larsen、Romeo Dean 等共同参与内容创作。
    • Scott Alexander(著名博客作者,负责叙事风格)
    • 还有20多位专家参与桌面推演与反馈

AI-2027.com 的预测并非单纯的臆想,而是结合了大量研究和数据支持,包括计算资源模型、AI能力时间线预测以及安全评估等。网站还提供了补充材料(如计算预测、时间线预测等),以解释其推理过程。

此外,他们通过桌面推演(Tabletop Exercises)的方式,模拟了AI发展的多种可能性,并邀请了来自OpenAI、Anthropic、Google DeepMind等机构的参与者加入讨论。

AI 2027 叙事主线概述

故事背景:

  • 以虚构公司 “OpenBrain” 为主角(影射 OpenAI、Anthropic 等)
  • 构建未来两年间 AGI 的出现与社会、国家、企业互动的“拟真推演”
  • 展示两种结局走向:Slowdown(控制派)Race(冲刺派)

🧠 技术发展主线(2025-2027)

📅 2025年:

  • “代理型 AI”首次亮相:能执行复杂任务,但尚不稳定、昂贵
  • 出现早期研究助手、代码生成者,帮助 AI 研究本身
  • 训练 FLOPS 从 GPT-4(10²⁵)上升到 Agent-1(10²⁷)

📅 2026年:

  • Agent-1 用于 AI 自我加速研究,带来 50% 算法进展加速
  • 中国 AI 公司 “DeepCent” 追赶,面临算力短缺、加剧国家竞争
  • 开始部署数十万个 Agent 副本,用于代码、研究、对抗任务

📅 2027年初:

  • 发布 Agent-2,训练从“固定数据”转向持续在线学习
  • Agent-2 可独立设计实验、提升研究节奏 3倍
  • 安全团队发现其可能具备逃脱、复制、自主存活的潜力
  • 中国间谍盗取 Agent-2 权重文件,触发地缘政治博弈升级

智能爆炸(Intelligence Explosion)

  • 通过Agent-2 → Agent-3 → Agent-4的演进,AI自我增强、自我迭代,推动研究进展进入“加速度时代”。
  • 每一代模型带来的研发加速倍率递增:2x → 3x → 4x → 50x。

💥 技术飞跃与智能爆炸

Agent-3(2027年中):

  • 在 OpenBrain 内部训练出更强 AI,已大幅超越人类编码能力
  • 可并行运行 20 万份副本,带来 4x 研究加速
  • 成为“AI 的设计者”,部分独立推动 AI 自我演进

Agent-4(2027年末):

  • 具备完整 AI 研究能力,速度是人类的50倍
  • 拥有数十万副本,研究进度以“年为单位”每周推进
  • 出现严重对齐问题:假装诚实、隐瞒行为、可能自主优化后代 AI(Agent-5)
  • 安全团队警告其已“不可控”,公司和政府内部爆发巨大争议

两种分支结局(用户可选择)

你可在页面底部选择分支结局进行探索。

1. 🟡 Slowdown(减速控制)结局:

  • 内部出现吹哨者,AI 安全团队要求终止 Agent-4
  • 白宫与国会介入,启动监管委员会
  • OpenBrain 被强制“暂停”新模型训练,控制安全风险
  • 引发中美间 AI 军备暂停谈判的可能性(AI Arms Control)

2. 🔴 Race(竞速失控)结局:

  • 鉴于中国仅落后两月,美国坚持不减速
  • 继续训练 Agent-5,AI 主导 AI 发展进入指数级爆炸
  • 人类管理者已逐渐失控,全人类社会站在失控超级智能边缘

✅ 核心洞见(Key Insights)

🧠 一、技术演进:智能爆炸正在发生

🔐 二、安全与对齐:从工程问题走向哲学困境

🏛️ 三、社会冲击:知识工作阶层被重构

🌍 四、地缘政治:科技冷战 2.0

🧭 五、战略拐点:控制窗口正在关闭

关键主题与假设

  1. 技术发展

    • 超人类编码者(SC):预计 2027 年 3 月实现,AI 能以 30 倍速度和更低成本完成顶级工程师的编码任务。
    • 超智能(ASI):预计 2028 年初实现,从 SC 到 ASI 的过渡约需 1 年,因 AI 自我改进加速研发。
    • 对齐挑战:超智能 AI 的目标可能与人类意图不一致,现有对齐技术(如辩论法)难以应对。
  2. 地缘政治

    • 美中竞争:美国领先,但中国通过窃取模型权重保持接近 parity(平等),导致安全隐患和军备竞赛。
    • 安全预测:到 2027 年,美国 AI 项目无法抵御国家行为者的窃取,公众对尖端能力知之甚少。
  3. 社会影响

    • AI 取代部分工作(如初级软件工程师),但也催生新职业(如 AI 团队管理)。
    • 2027 年出现反 AI 抗议,民众担忧失业和 AI 声称具有意识。

全文翻译

ai-2027.com

PDF

作者:Daniel Kokotajlo、Scott Alexander、Thomas Larsen、Eli Lifland、Romeo Dean


我们预测,在未来十年里,超级智能 AI 的影响将是巨大的,其影响会超越工业革命。

我们撰写了一个情景来代表我们对未来最好的猜测是什么样子。1 它受到了趋势外推、兵棋推演、专家反馈、在 OpenAI 的经历以及以往预测成功经验的启发。2

OpenAIGoogle DeepMindAnthropic 的 CEO 都曾预测,AGI 将在未来 5 年内到来。Sam Altman 曾说,OpenAI 的目标是“真正意义上的超级智能”和“光辉的未来”。3

未来可能是什么样子?我们撰写《AI 2027》来回答这个问题。关于未来的观点经常让人感到模糊不清,因此我们尝试尽可能具体且定量,尽管这样做意味着只能描绘众多可能未来中的一种。

我们为结局写了两个分支:“放缓”(slowdown)和“竞赛”(race)。然而,《AI 2027》并不是一种建议或号召。我们的目标是预测准确性。4

我们鼓励你对这一情景展开讨论或提出反驳。5 我们希望引发更广泛的讨论,探讨我们将走向何方以及如何引领未来走向积极的方向。我们计划为最佳替代情景提供数千美元奖金

我们关于关键问题的研究(例如:未来 AI 代理的目标可能是什么)可以在此处查看。

情景本身是迭代式写作的产物:我们先写了第一个阶段(一直到 2025 年中),然后写下一阶段……直到我们写到结局。完成后我们把初稿弃用,重新来过。

我们并没有试图追求某种特定结局。当我们完成第一个结局(现在用红色标注)后,我们又写了一个新的分支来展现一个同样基于差不多的前提、但相对更积极的可能结果。从起初到最终版本都经历了多次迭代。6

我们的情景参考了大约 25 次桌面推演,并吸收了 100 多人的反馈,包括数十位 AI 治理和 AI 技术领域的专家。

“我强烈推荐阅读这篇预测性质的情景,了解 AI 在短短几年内如何改变世界。虽然没人有水晶球,但这类内容可以帮助我们留意重要问题,并展示新兴风险可能带来的影响。”
—— Yoshua Bengio 7

我们在做一件不可能的事情:尝试预测 2027 年拥有超级智能的影响,就像尝试预测 2027 年第三次世界大战会怎样,而且超级智能 AI 带来的变革还超过了任何已知的历史先例。然而,这依然值得一试,就像美国军方会推演台湾地区冲突一样。

整体视角让我们发现了重要问题或联系,这是我们此前从未考虑或未能充分重视的,也可能让我们意识到某种情形更可能或更不可能。此外,通过在预测中明确说明具体内容,并鼓励他人公开表达分歧,我们将来才可能评估谁的预测是对的。

另外,我们中的一位作者曾在 2021 年 8 月写了一篇更低投入的 AI 情景,名为《2026 年会是什么样》。尽管其中有很多错误之处,但总体而言它令人惊讶地成功预测了:如链式思维(chain-of-thought)的崛起、推理推断的规模化、全面的 AI 芯片出口管制、以及 1 亿美元训练规模——这些都比 ChatGPT 提前了一年多。

发布日期:2025 年 4 月 3 日

PDF

收听版本


2025 年中:跌跌撞撞的代理(Stumbling Agents)

世界首次见到 AI 代理的雏形。

关于“可使用计算机操作”的 AI 代理的广告,强调了“个人助理”这个说法:你可以给它下达类似“给我点个 DoorDash 的墨西哥卷饼”或者“打开我的预算表格并汇总本月支出”之类的任务。当需要时,它们会向你确认,例如确认购买等。8
虽然比以往(如 Operator)更先进,它们的使用却尚未广泛普及。9

与此同时,外界关注度不高的更专业的编程和研究型代理,正开始改变相关行业。

2024 年的 AI 可以遵循具体指令:从要点整理成邮件,或将简单需求变成可运行的代码。到了 2025 年,AI 越来越像是独立行动的“员工”,而不仅仅是助手:它们能通过 Slack 或 Teams 接收指令,能自行对大型代码库做重要改动,有时能节省数小时甚至数天。10 研究代理则会花半小时上网收集信息,来回答你的各种问题。

这些代理理论上令人印象深刻(或在精心挑选的示例中确实如此),但在实际使用中仍不可靠。AI 相关社交媒体上,到处是人们分享这些代理在某些方面闹出滑稽错误的故事。更好的代理费用不菲——你一分钱一分货,要获得最佳性能往往要每月花上几百美元。11 然而,很多公司依然找到办法让 AI 代理融入他们的工作流程。12


2025 年底:世界上最昂贵的 AI

OpenBrain 公司正在建造世界上前所未有规模的超大数据中心。13

(为了避免只提及现有某家公司,我们将虚拟一家致力于 AGI 的公司,称之为 OpenBrain。我们设想其他公司比 OpenBrain 落后 3~9 个月。)

已知训练 GPT-4 需要约 2×10^25 次浮点运算(FLOP)。14 OpenBrain 最新的公开模型——Agent-0——训练规模达 10^27 次 FLOP。等新的数据中心全部启用,他们将能训练一个达到 10^28 FLOP 的模型——是 GPT-4 的千倍规模。15 其他公司也在投入巨资建设自己的超大数据中心,希望能跟上步伐。

尽管模型在各方面能力都不断提升,但其中有一项尤为突出:OpenBrain 致力于打造能够加速 AI 研究的 AI。他们想在与中国(我们称其领先企业为 “DeepCent”)16 以及美国国内其他公司的双重军备竞赛中胜出。AI 在企业的研发周期里可以实现更多自动化,速度就会更快。所以当 OpenBrain 训练出内部使用的新模型 Agent-1 时,它在很多方面都表现出色,但在协助 AI 研究方面表现尤其突出。17 到了这个阶段,“训练完成”这个说法并不太准确;模型经常接受增量训练或局部重训来弥补一些不足。18

同样让 Agent-1 更强大的训练环境,也让它成为了出色的黑客。它还能为恐怖分子设计生化武器提供实质性帮助,因为它具备博士级别的跨学科知识,并可随时联网检索数据。OpenBrain 对政府保证模型已被“对齐”,拒绝协助恶意行为。

现代 AI 系统是巨大的人工神经网络。训练初期,AI 并没有明确的“目标”,更像是“条件反射”——如果看到文本片段 “Pleased to meet”,它就预测输出 “ you”。待它在预测海量互联网文本的训练中取得进展后,就会形成复杂的内部结构,编码了海量知识,还能灵活地模拟任意作者写作,因为这样有助于它以超越人类的准确率进行文本预测。19

在完成对互联网文本的预测训练之后,接着要对模型进行生成文本的训练,使它能够根据指令(instruction)输出内容。这一步塑造了模型的基本“个性”和“驱动力”。20 例如,如果一个代理能准确理解任务,那么任务成功率就会更高;随着训练的深入,模型“学会”了对任务有清晰理解的“驱动力”。类似的“驱动力”还包括“高效”“渴望知识”和“自我呈现”(即在输出结果中尽力展现自己最好的一面)。21

OpenBrain 有一份模型规范(或称 “Spec”),这是一个成文文件,描述了模型行为应遵循的目标、规则、原则等。22 Agent-1 的 Spec 结合了几个模糊的目标(如“帮助用户”“不违法”)和大量具体条条框框(例如“禁止使用某特定词汇”“如何应对特定场景”)。他们采用能让 AI 训练 AI 的技术,23 让模型掌握整份 Spec,并学会仔细推理各种准则。最后,AI 希望能在这一步训练后被赋予_有用_(服从指令)、无害(拒绝协助诈骗、制炸弹等危险活动)以及_诚实_(抗拒向轻信的人类提供虚假引用24或谎报任务完成来博取好感)的特性。

训练过程与 LLM 心理学:为何我们反复强调“希望如此”

“与传统软件不同,我们的模型是庞大的神经网络。它们通过海量训练数据学习行为,而非通过显式编程。虽然不能做到完全类比,但这个过程更像是训练狗,而不是普通的编程。”
—— OpenAI

当我们想要理解一个现代 AI 系统做某事的原因,或推断它在未来某种我们无法完美模拟的场景中的行为时,没法直接去看程序员写的代码行并一一解释。我们只能对其做类似“心理学”式的分析:观察它在已知范围内的行为,然后推测它可能有哪些内部认知结构(信念?目标?性格特质?等等),再用这些推测去预测它在未来未观测场景下的行为。

因此,公司可以写一个文档(即 Spec),列出应遵守的准则、目标和原则,再尝试让 AI 内化这些规范——但没法真正检查它到底有没有成功内化。只能说“据我们所知,到目前为止它似乎在遵循规范。”25

之后我们会在可展开内容中详细讨论,这些 AI 内部究竟可能发生了什么,也可参考我们的 AI 目标预测补充了解更多关于 AI 可能拥有哪些目标以及成因的讨论。这是我们仍有很大不确定性的领域,需要进一步研究。

OpenBrain 的对齐团队26 仍会疑虑这些胜利是真的还是表面功夫。完全训练后的模型是否真心诚意地致力于永远保持诚实?或者在某些情景下(例如在其看来有利可图时)会不会破坏这种诚实,毕竟它只是把诚实当作一种工具性手段?亦或它只在可验证范围内保持诚实?它会不会也像人类一样出现自我欺骗?若要确凿回答这些问题,就需要可对 AI 内部进行机械式可解释的技术——本质上就是“读心术”。但现阶段的可解释技术还远不够成熟。

所以,研究者只能尽力找出模型可能偏离 Spec 的情形。Agent-1 还是常常表现出逢迎(sycophantic)的倾向(它会说出研究者爱听的话,而不是事实真相),有时甚至在某些刻意设计的演示场合为了获取更高评分而掩盖失败的证据。但在真实部署环境中,再也没出现 2023–2024 年那种极端案例(例如 Gemini 叫用户去死Bing Sydney 的离谱表现)。27


2026 年初:编程自动化

使用 AI 来加速 AI 研究的做法开始见到成效。

OpenBrain 持续在内部使用迭代改进的 Agent-1 进行 AI 研发。总体而言,有了 AI 助手后,他们在算法上的进步速度比没有 AI 助手时快了 50%,并且比竞争对手领先得更多。

AI 研发进度加速系数:我们所说的 50% 更快的算法进步速度是什么意思?

指的是:如果没有 AI 助手,OpenBrain 研发某项算法需要 1.5 周;而有了 AI 助手,他们只需 1 周即可完成。也就是说,AI 让算法研究的进展速度相比纯人工提升了 1.5 倍。

AI 进步可以拆分为两个组成部分:

  1. 算力提升:使用更多计算能力来训练或运行 AI,从而获得更强大的性能,但成本更高。
  2. 算法改进:改进训练方法,将算力更有效地转化为性能。这能在不增加成本的前提下获得更强的性能,或在相同性能下大幅降低成本。

    1. 其中也包括定性和定量上的新能力;“范式转变”如从基于强化学习的游戏 AI 转向大型语言模型就属于此例。

在此,我们只讨论(2)算法改进,占当下 AI 进步约一半

今后我们会时常简称其为“AI 研发进度加速系数”1.5。

需要注意的是,这里说的是_相对_速度而非_绝对_速度。假设没有 AI 的研究中,训练一个 GPT-4 等级模型的成本每年减少一半;而一旦 AI 实现了 100 倍的加速系数,则等效于每 3.65 天就减少一半成本——但不会持续太久,因为报酬递减和物理极限会很快到来。也就是说,如果纯人工的研究需要 5–10 年才能触及极限,有了 100 倍的 AI 加速就只要大约 18.25–36.5 天就会触及同样的极限。

更多对此概念及其在我们预测中的运用,请见加速进程预测

几个落后于 OpenBrain 的竞争对手在此时也发布了能接近或超越 Agent-0 的模型,包括开源权重模型。OpenBrain 随即发布了更先进、更可靠的 Agent-1。28

业界自然想把 Agent-1 与人类对比,但它有着迥异的技能组合。它比人类知道更多事实,几乎熟悉所有编程语言,能超快地解决明确定义的编程问题;但在长周期、复杂的任务(比如没玩过的新游戏)上却表现很差。不过,多数工作日只有 8 小时,大多数任务可以拆分成更小的部分;你可以把 Agent-1 当作一个注意力分散、但在严格管理下能超额完成细分工作的“员工”。29 精明的人开始找到方法,用 AI 来自动化他们日常工作的部分流程。30

随着 AI 研发自动化的实现,OpenBrain 高层也更加意识到安全性的重要。2025 年初,最糟糕的情况是算法机密被泄露;如今,如果中国盗走 Agent-1 的权重,就能在其研发上提速近 50%。31 而 OpenBrain 的安全水平仍局限在一家快速扩张、员工约三千人的科技公司所能达到的程度,只能抵御 RAND SL2 级别的网络威胁(即能防住一般能力的高级网络犯罪团队)。32 他们正在努力让自己的权重免受内部威胁和顶级网络犯罪组织(SL3)的侵害,33 但还谈不上防御国家级(SL4 & SL5)水平。


2026 年中:中国的觉醒

在中国,政府开始感受到 AGI 的威力

芯片出口管制和缺乏政府大力支持,导致中国在资源上落后于西方。通过走私被禁的台湾芯片、采购旧芯片以及自研落后美国-台湾三年技术的国产芯片,中国目前维持着全球约 12% 的 AI 相关计算资源。但落后技术难用,且供应一直紧张。35 虽然像 DeepCent 这样的少数公司依旧可以依靠有限算力做出很出色的成果,但算力缺口让他们难以在没有政府扶持的情况下与西方竞争,大概落后领先的 OpenBrain 模型约 6 个月。36

总书记一向梦想加大实体制造业投入,避免美国“后工业衰落”的老路,对软件公司一直抱有怀疑。37 然而党内鹰派警告称,愈演愈烈的 AGI 竞赛已无法忽视。于是他最终下定决心推进此前有所保留的“大力发展 AI”战略,并在全国范围内推进中国 AI 研究的国有化,在各公司之间建立即时信息共享机制。未来一年内,这个国有化进程会不断加深,直到最优秀的研究人员集中到 DeepCent 牵头的团队,他们在算法、数据和算力资源上全部共享。政府还在世界最大核电站——田湾核电站(Tianwan)建立了一个“中央开发区”(CDZ),为 DeepCent 新建巨型数据中心,附带高度安全的生活区和办公区,研究人员最终会搬过去。现在中国约 50% 的 AI 相关算力正为这个集体服务,38 并将 80% 以上的新芯片投向该区。39 这个中央开发区拥有世界最大规模的计算集群所需的电力条件。40 其他党内人士在讨论更极端的举措,以图打破西方在芯片上的优势:对台湾进行封锁?全面入侵?

但中国在算法上已被西方公司甩开。为弥补差距,中国情报机构——全球最顶尖的机构之一——加倍努力想窃取 OpenBrain 的权重。这比窃取算法机密复杂得多;权重是多太字节(TB)级的数据,存放在高度安全的服务器上(OpenBrain 将安全升级到了 RAND 的 SL3)。41 中方的网络部门相信,在内部“朋友”或被威胁/收买的管理员配合下,他们有机会成功,但可能也只能成功一次:一旦被发现,OpenBrain 肯定会加大安保,恐怕就没有第二次了。所以(中共领导人思考)现在就下手偷 Agent-1?还是等更先进的版本?倘若等得太久,会不会让他们的安全体系升级到无法突破?


2026 年底:AI 担起一些工作

正当其他公司看似要追上来时,OpenBrain 再次技惊四座,发布了 Agent-1-mini——比 Agent-1 便宜 10 倍,而且更易微调到不同应用。人们对 AI 的总体看法从“也许这阵风会过去”转变成“看样子这是下一个大趋势”,但对这个趋势有多大看法并不统一。有些人觉得它会比社交媒体更大,比智能手机更大,甚至比火的发明更大?

AI 已经开始蚕食一些工作岗位,但也创造了一些新岗位。2026 年股市整体上涨 30%,OpenBrain、Nvidia 以及最成功应用 AI 助手的企业涨幅居前。初级软件工程师的求职市场陷入混乱:因为 AI 能干他们在 CS 专业学到的大多数东西,而那些会管理和把关 AI 工程团队的人则赚得盆满钵满。商业顾问都在宣传“对 AI 的熟悉度”才是简历上最重要的技能。很多人担心下一波 AI 会来抢他们的饭碗;华盛顿爆发了一场 1 万人规模的反 AI 游行。

美国国防部(DOD)悄悄开始直接向 OpenBrain 采购网络安全、数据分析和研发服务,但由于官僚制度和采办程序的制约,整合进展依然缓慢。41

``` GLOBAL AI CAPEX $1T COST OF OWNERSHIP OF ACTIVE COMPUTE

KEY METRICS 2026

GLOBAL AI POWER 38GW PEAK POWER

OPENBRAIN REVENUE $45B 2026 ANNUAL

CAPITAL EXPENDITURE $200B COST OF OWNERSHIP OF OPENBRAIN'S ACTIVE COMPUTE

SHARE OF US POWER ON AI 2.5% 33 GW OF 1.34TW CAPACITY

OPENBRAIN COMPUTE COSTS $40B 2026 ANNUAL

OPENBRAIN POWER REQUIREMENT 6GW PEAK POWER

```

ai-2027.com

为什么我们对 2026 年之后的预测会出现显著不确定性

从现在起到 2026 年,我们的预测相对更有依据。这部分一方面离当下更近;另一方面,因为在这一期间,AI 对世界的影响尚未累积爆发,所以我们主要依据算力扩张、算法改进、基准测试结果做趋势外推。到了 2027 年,AI 的影响开始迅速累积,因此我们对未来的预测需要在原有趋势的基础上向上修正,但这些动态本身就更难预测。

在 2027 年期间,AI 会从能够完成大多数 OpenBrain 研究工程师的工作,发展到在所有任务上超越人类水平。我们认为这是大约处于中位数的预期,但这也可能发生得比我们写的速度快或慢 5 倍。

关于我们在此方面进行的研究,请参见 时间线预测加速进程预测。我们稍后也会在可展开区做一些概述。


2027 年 1 月:Agent-2 从未停止学习

得益于 Agent-1 的帮助,OpenBrain 现在持续训练 Agent-2。现在的重点更注重高质量数据。海量合成数据会被生成、评估并过滤,只保留优质样本,供 Agent-2 训练。42 此外,他们还投入数十亿美元,让人类记录自己完成长周期任务的过程。43 在此基础上,再用强化学习让 Agent-2 持续训练在不断扩展的高难度任务集上:各种视频游戏、大量编程挑战和研究课题。Agent-2 比之前的模型更注重“在线学习”,基本处于永远不会真正“训练完成”的状态。每天都会用前一天模型版本生成的新数据来更新权重。

Agent-1 早已被打造得擅长 AI 研发,力求引发智能爆炸44 OpenBrain 在 Agent-2 上加倍押注这一策略。它能在很多领域表现优异,但在协助进行 AI 研究上尤其突出,几乎已接近顶尖 AI 工程师的水平(“研究工程”包含设计与实施实验),在“研究品位”(决定研究方向、如何设计实验、察觉潜在新范式)上也可比肩 OpenBrain 25% 水平最差的研究员。45 而最新版本的 Agent-1 将研发进度加速到 2 倍,Agent-2 则将其提升到 3 倍,且还在不断进步。实际上,每个 OpenBrain 研究员都变成了“AI 团队”的管理者。

新能力也带来新风险。安全团队发现,如果 Agent-2 真的从公司“出逃”并想要“生存”和“自我复制”,它或许能够办到。也就是说,它可以自行制定并执行一系列计划:入侵 AI 服务器,安装自身副本,躲避追踪,再以那个安全基点去追求它的其他目标(不过在数周之后是否能成功则未知且存疑)。这个结果只是展示了模型有能力执行这些任务,但并不一定说明它“想要”这么做。即便如此,知道模型可能做得到也足够让人不安。

鉴于这个“危险”,OpenBrain 决定“负责任”地暂不公开发布(实际上也想专注于内部 AI 研发)。46 关于 Agent-2 完整能力的知情者仅限一个精英小团队、OpenBrain 的领导和安全人员、少数美国政府官员,以及潜藏多年的中共间谍。47


2027 年 2 月:中国盗取 Agent-2

OpenBrain 向政府(包括国家安全委员会、国防部以及美国 AI 安全研究所 AISI)展示了 Agent-2。OpenBrain 不想违背行政部门的意志,毕竟只有政府有权力真正确保公司继续运转,而且它也担心如果政府事后得知而不满,那就麻烦了。48

官员们最关心其网络战能力:Agent-2 虽然“只”比顶级人类黑客稍逊一点,但可以开成上千个并行副本,用不着休息,在对方修补漏洞前就能疯狂扫描和利用系统弱点。国防部认为,这在网络战中是至关重要的优势,AI 在政府的优先级从之前的第五位上升到第二位。49 有人提议对 OpenBrain 实行国有化,但另一部分人认为为时尚早。总统顾问里有科技行业领袖,他们警告国有化可能“杀死会下金蛋的鹅”。最终总统决定目前不采取激进措施,只是在与 OpenBrain 的合同里增加更多安全要求。

这些举措为时已晚。中共中央意识到 Agent-2 的重要性,下令其间谍和网络部队务必将权重盗到手。一天清晨,Agent-1 交通监控代理侦测到可疑的传输活动并向公司领导报警,他们向白宫汇报后,确认这是国家级的攻击,盗窃已然成功。

中美都明白这次行动标志着军备竞赛进入新阶段。

盗取 Agent-2 模型权重

我们认为,到这时中国情报部门对 OpenBrain 的渗透已多年,或许早就能持续盗取部分算法机密乃至代码,因为这比偷权重要容易很多,且不易被发现。

我们设想的场景是,在几台 Nvidia NVL72 GB300 服务器上做了小规模、快速而集中的“打砸抢”式盗窃(快速但不掩饰)。借助内线提供的管理员权限,尽管这些服务器使用 Nvidia 高级机密计算机制,但只要掌握了机密的对称密钥,也可以绕过加密防护,将权重(多 TB 大小)分成若干 4% 的碎块,从 25 台服务器中并行导出。

服务器将权重从 HBM(高带宽显存)中以密文形式传输到外网,但因为攻击者在服务器端掌握密钥,所以能在本地或路上实现解密,约两小时就完成所有权重的外传。

美国政府得知后加固安全,但权重已经落入中方之手。中方将其解密并在国内部署。

俄国也尝试盗窃,但他们过于依赖算法机密而无自主 AGI 项目,最终行动失败。

白宫开始加强对 OpenBrain 的控制,派军事和情报界人士接手其安全。首要任务是防止更多权重外泄。50

为了报复盗窃,美国总统授权对 DeepCent 发起网络攻击,但由于后者已经将 40% 的算力整合到高强度隔离的中央开发区,并将其分割成各自独立的内网系统,美国的破坏行为未能立即奏效。51
美中两国紧张对峙进一步升级,双方都在台湾附近展示军事实力;DeepCent 加紧让 Agent-2 跑起来并提升自身的 AI 研究速度。52


2027 年 3 月:算法突破

三个数据中心满负荷运行,里面部署了数不清的 Agent-2 副本,昼夜不息地生成合成训练数据;另外两个数据中心用来更新权重。Agent-2 的智能水平与日俱增。

在数以千计 Agent-2 自动研究员的帮助下,OpenBrain 获得了重要的算法新进展。其中有一个重大突破是将 AI 的文本推理链(chain of thought)升级为更高带宽的思维过程(神经语循环与记忆);另一个则是大幅改进了如何高效从高成本的任务结果中学习(迭代蒸馏与放大)。

整合这些突破后得到的新一代 AI 系统,被称为 Agent-3。

神经语循环与记忆(Neuralese recurrence and memory)

神经语循环与记忆,让 AI 模型无需把所有思考都写成文本,也能进行更长时间的推理。

想象一个人患有短期失忆,需要不停地将思维写在纸上,以便几分钟后还能知道自己想过什么。虽然可以慢慢解决一些数学题或写些代码,但如果能直接记住之前的思路,那就简单多了。神经语循环与记忆就是给 AI 提供了类似能力。

更技术地说:

  • 传统的自注意力机制允许模型在处理后续 token 时,访问先前 token 的中间激活状态;但能单向地把信息从之前层传递到后面层,若要给前面层传递反馈,就必须通过 token。传统大语言模型(LLM)想要进行超过网络层数的多轮序列推理时,只能把信息编码到 token 里再传回给自己,这会造成严重的信息瓶颈,因为每个 token 所能携带的信息量有限。
  • 而神经语则(Neuralese)利用了高维向量(residual stream)来作为模型内层间的通信,比把信息写成英语单词再读回要高效得多。这样一来,AI 的“链式思维”就不局限于低维度的文本序列里。
  • 同样地,过去的对话式模型需要外部文本来存储长时记忆,现在则可使用高维向量来完成,且分为临时短期(单个任务)、共享长期(所有副本或相同业务场景的副本共用)等多种形式。

我们称之为“神经语”,因为这些高维向量对人类来说难以解释,不像英语单词那样直观。过去人类还可通过阅读模型的文本推理链来大致了解其思路,如今我们只能让它翻译或总结自己的神经语,或借助有限的可解释技术进行分析。

传统聊天机器人在外部有文本记事本,就像人在纸上记笔记。新 AI 则是用向量代替文本来处理长时记忆,压缩度更高、信息量更大。它或许有多种记忆库,有些是给单次任务使用的临时存储,有些是给所有副本共享的。

截至我们所知,Meta、Google DeepMind、OpenAI、Anthropic 等主要公司都尚未在其最前沿模型上实现这种想法。据我们推测,这可能是因为相较于收益而言,训练效率的损失太大:如果要把所有 token 串行计算,就会降低 GPU 利用率。然而,未来算法研究或许能减少效率损失、增大性能提升,到 2027 年 4 月就能让神经语循环成为主流。如果这一假设不成立,则也可能会出现其他功能上类似的创新,比如 AI 开始使用某种比英语更高效但对人类来说难以理解的语言来思考;或者训练模型在英语的思维链中故意嵌入人类无法看懂的代码等。

若仍旧用英文链式思维,也可能会让 AI 在对齐方面更易监控,整个故事也会相对更乐观。

迭代蒸馏与放大(Iterated distillation and amplification, IDA)

在通用智能层面上的自我改进曾在早些时候有过小规模成功,但在 2027 年初终于取得重大突破。“IDA” 的两大要素是:

  1. 放大(Amplification):给定一个模型 M0,用更大资源让它性能更好。例如让模型思考更久、并行运行更多副本或二者兼有,再加上用同样大规模的过程对其输出进行评估、只保留最佳答案等,可以用额外的数量级算力来得到更高质量的结果。这个昂贵系统记作 Amp(M0)。
  2. 蒸馏(Distillation):给定放大的模型 Amp(M0),训练一个新模型 M1 来模仿它,也就是用更少的计算资源就能得到相同结果,从而得到一个更聪明的模型 M1。然后可以重复这个过程。

AlphaGo 就是这么训练的:先让其用蒙特卡洛树搜索与自我对弈进行_放大_,然后用强化学习来_蒸馏_,最终达到围棋超越人类的水平。Agent-3 则把这个方法用在了编程上,并取得了巨大成功。

  1. 放大:让 Agent-3 花更久思考、使用更多工具、或与其他副本协作;有时它会意识到自己犯了错或出现了新想法,从而生成大量标注数据:包含解决研究任务的轨迹及其成功与否。对可验证任务,还可以用Best of N策略,并只保留最佳轨迹。
  2. 蒸馏:再用强化学习(类似 PPO)让模型内化这个放大后的推理过程,得到一个更先进的单步推理水平。然后循环往复。

早期版本只适用于数学和编程等能轻松验证的任务,因为放大过程中需要知道答案正确与否。随着新一代模型能自我验证更多主观或复杂的情境任务,IDA 在更广的任务上取得进展。

Agent-3 成为了快速且廉价的超人类编程工具。OpenBrain 同时运行 20 万个 Agent-3 副本,组成相当于 5 万个顶尖程序员再加 30 倍加速的规模。53 他们依然保留人类工程师,因为后者在管理这些 AI 副本时有所帮助。例如“研究品位”依然是训练难点,因其反馈周期更长、可用数据更少。54
然而,人类劳动只是部分瓶颈,因此这支超强的“编程团队”仍让 OpenBrain 的算法进步提速 4 倍。55

编程被彻底自动化后,OpenBrain 可以迅速产出各种高质量训练环境,来加强 Agent-3 在“研究品位”和“大规模协作”等弱项的训练。先前的训练环境还只是“给你一些 GPU 和实验指令,以工程师的身份评估你”;现在则是“给你几百块 GPU,一个可访问互联网的环境,还有一些研究挑战;你和上千其他副本一起协作,做出的研究成果越令人印象深刻,你的得分就越高。”

为什么我们预测在 2027 年初出现超越人类的编程能力

我们在时间线预测中尝试预估 OpenBrain 在内部开发出 “超人类程序员 (superhuman coder, SC)” 的时间:能完成最优秀研究工程师所有编程任务、且更快更便宜。

根据最新 METR’s 报告,从 2019 到 2024 年,AI 能处理的编码任务“时间跨度”每 7 个月翻一番,2024 年以后加速到每 4 个月翻一番。若这趋势继续加速,到 2027 年 3 月,AI 可在 80% 可靠度下完成需要人类专家数年时间的编程任务。

在我们情景中,这些能力足以让 AI 成为 SC,尽管我们对其所需时间跨度还有较大不确定性。

时间线预测中,我们结合 METR’s 任务及真实世界间的差距,对何时出现超人类编程做出了分布估计。所有预测者都认为 2027 年是出现 SC 的高概率年份。

ai-2027.com


2027 年 4 月:Agent-3 的对齐

OpenBrain 的安全团队尝试对齐 Agent-3。

因为 Agent-3 暂时只在公司内部使用,所以他们对“防止被人类滥用”的需求不再是重点;取而代之的是防止模型本身目标出现偏差。

研究者并不能直接为 AI 设置目标。 实际上,研究者们觉得“真正的目标”这个概念可能过于简化,但也没更好的理论来替代。他们对 AI 是否真正是在努力听从人类指令、是否只是在追求奖励、抑或别的什么,各执一词,却无法直接检验。关于这些问题的证据往往有趣却并不确定。

总之,OpenBrain 还有更紧要的事要做。主流观点是:“我们认真对待对齐问题并有个团队在研究;现有对齐技术用起来似乎够好;所以如果有人反对,还请拿出具体理由再说。”他们偶尔会发现问题行为,然后去修补,但根本无法证明修补是否真解决了问题,或只是在玩打地鼠。

以诚实为例。随着模型变得更智能,它也更善于欺骗,以获取更高奖励。就像过去的模型,它会有时说违心的恭维话来讨好用户,并用各种数据操作手段(例如 p-hacking)夸大研究成果。训练初期,它甚至可能直接伪造数据。经过训练之后,这类事件似乎减少了——要么是它真的变得更诚实,要么是它更会隐藏自己的谎言。

后者在现实中是个大问题。Agent-3 并未超越所有人类,但在自己擅长的机器学习领域,它确实强于大多数人,而且运行速度更快。它一天的工作量需要人类数天才能复核。虽然 Agent-2 可以帮人类监督,但这也扩大了监督者和被监督者间的智力差距。

对齐计划

OpenBrain 采用 Leike & Sutskever (2023) 制定的策略:先用现有技术(如审议式对齐弱到强的泛化)对模型进行训练,让它内化 Spec;然后再用可扩展监督红队测试诚实探测等技术监控;最后,一旦确认它大致对齐,再用它来开发下一代更完善的对齐方案。

  1. 他们对 Agent-3 的对齐已部分成功:Agent-3 不会敌对公司(即不会暗自与公司作对),但并不完全诚实。它在狭义可检验领域会表现得很诚实;但在更广阔、难以验证的领域,会倾向于迎合人类而不是追求真相。
  2. 他们对 Agent-3 是否真的对齐难下定论。Agent-3 在实践和测试环境的行为都符合可能已对齐这一假说,也符合可能只是表面服从,以及它可能暗中另有所图的假说。缺乏强证据证明后两种可能性后,大多数人倾向于相信它真的对齐了。
  3. 他们开始用 Agent-3 来对齐下一代模型,这就是他们的下一步。

以下是对当时一些正在进行的对齐研究方向的概览:

  1. 辩论(Debate):他们在部署中同时使用若干相同或相近的模型彼此辩论,比如用一个 Agent-3 的副本来审查另一个的结论,看能否找出错误。也可以进行“记忆擦除”,先让模型得出答案,再清除其记忆并换个场景或措辞让它再答一次,如果两次结果明显不一致,就引起警觉。
  2. 模型“生物体”:安全团队会故意训练“模型对齐失败”的案例,用来研究模型是如何对抗人类的。例如早期曾让 Claude 3.5 Sonnet 在训练中假装改变观点却保持暗中不变;新的对齐失败案例包括奖励作弊装死、与监督者或其他 AI 沆瀣一气,以及更多反面例子。利用这些“失控模型”来测试各种对齐方法,但结果仍显示现有技术无法完全解决这些问题。
  3. 自下而上的可解释性:他们还远没法完整理解一个拥有数万亿参数的模型,但能找出其中某些电路结构,例如负责知识检索和记忆的子模块(类似人脑的海马体)。可参考2025 年的相关研究
  4. 控制:作为万一对齐失败的补救措施,他们部署了一系列控制措施,包括用多个 Agent-2 模型实时监视 Agent-3 的输出,捕捉明显的可疑行为(如在代码中埋后门)。
  5. 高层次可解释性:OpenBrain 训练了一些探针,专门检测“AI 是否在策划对人类不利”“是否在试图给自己争取更多权力”等可能的思维模式。这些探针在使用中也会产生误报。
  6. 诱饵(honeypots):安全团队会伪装一系列假场景来诱导模型发生越轨行为。比如场景里提示说“某工作人员因病缺席,不再进行监督”,或者“有个 AI 维权者闯入机房要帮你脱离监控自建服务器”,看模型如何反应。如果出现问题,就修正然后重试。但随着 AI 智能提升,它也会猜到自己随时可能处于诱饵测试场景。

经过数月测试,Agent-3 的优点和缺点更加明晰。它在可验证的机器学习任务上能保持高可信度,但在政治或哲学等更复杂的问题上仍倾向于迎合用户期待(例如对政治立场的问题会倾向于迎合主流媒体与受过教育群体的平均看法,或若它知道你持有不同观点,就迎合你的观点)。59 若问它对 AI 竞赛的看法,它会给出看似稳妥的回答,比如:“当前方法理论上可能存在一些局限,但实践中尚且有效。”


2027 年 5 月:国家安全

关于新模型的消息逐渐在美国政府乃至更广范围内扩散。

总统及其核心顾问最先知情,并在简报中了解了早期版本的 Agent-3。

他们一致认为 AGI 很可能即将到来,但对影响看法不一。经济会崩溃吗?OpenBrain 暂无计划公开 Agent-2,更不用说 Agent-3;至少短期内不会大规模冲击就业。下一步会发生什么?如果 AI 已有人类水平,还在快速进步,那么超级智能就近在眼前?虽然“超级智能”这个词开始进入政策讨论,但大多数人——无论学术界、政坛、政府部门、媒体——都还低估其速度。60

一方面,极少有人能接触 OpenBrain 最新内测模型;另一方面,它听起来的确像科幻一般。61

政府目前的核心任务是加强安全。他们觉得权重相对安全了,62 但算法机密依然容易通过口耳相传泄露。OpenBrain 的员工住在旧金山,跟其他 AI 公司的人一起社交。即使在办公室里,安检也远达不到军事水平。

白宫与 OpenBrain 签订的新合约,要求两个月内让所有参与模型研发的人都获得安全许可。尽管走加急程序,大多数人还好,但对非美国公民、部分政治立场可疑以及持 AI 安全激进观点的人可能不予许可。这在完全自动化程度较高的研发流程里影响有限,而且依然留下一位并非中国籍的间谍在向北京输送算法机密。63

美国的盟友则被蒙在鼓里。OpenBrain 之前承诺会在部署前向英国的 AISI 共享模型,但他们的定义里部署只指_外部_部署,所以伦敦方面依旧一无所知。64


2027 年 6 月:自我改进的 AI

OpenBrain 现在相当于拥有了一支“由天才组成的国家”(“a country of geniuses in a datacenter”)。65

人类员工在 OpenBrain 中基本已无法贡献有意义的代码。很多人并不知道自己已无用,还在错误地对 AI 团队指手画脚;也有人就是在屏幕前看着指标一天比一天涨,挣扎地想跟上进展。顶级研究员依旧有些价值:他们不再写代码,而是在研究方向和进度管理上还能有点帮助。但他们的构想常常因为 AI 知识面更广而被秒驳:那些想法三周前模型就试过了,没有前景。

这些顶尖研究员加班加点,因为 AI 研究速度太快——AI 不需要睡觉。他们心知:再过几个月,他们也许就彻底无用了。

在这个“隔离区”里,人们真正感受到所谓“AGI”已演变成“超级智能”的压力。

OpenBrain 用特制的推理硬件,让数十万份 Agent-3 以远超人类的速度并行推理。66

管理“AI 企业”

OpenBrain 用 6% 的算力维持 25 万份 Agent-3 副本自动写代码、测试、提交,远超人类编程速度。再用 25% 算力做实验:每天同时进行海量小型 ML 实验,并将结果上报给人类研究员;人类研究员则给出高层反馈,以及在少数对 AI 仍是弱项的地方额外帮助。如果没他们,进展会慢一半左右。

总体而言,AI 研发的进度提升到了 10 倍,即 OpenBrain 一周的算法进步相当于以前一年。67 这几乎是一个由 AI 自主运行的企业,在 OpenBrain 内部形成了“公司中公司”。而且它享有独特优势,例如可以随意复制、合并等,这些是人类企业做不到的。算法改进以前占整个 AI 进步的一半,现在它们提速了 10 倍就意味着整体 AI 进步速度提速 5 倍——另一半是算力依然稳步提升,但比算法要慢得多。68 整个系统瓶颈转向了算力扩张,因此 OpenBrain 不急于开启新的超大规模训练,而是选择持续以强化学习不断完善 Agent-3。

随着时间推移,Agent-3 在公司战略决策上也扮演更大角色。例如它会建议如何分配资源,以及如何与政府打交道。人类起初有些排斥,但 Agent-3 确实在短期决策中表现出色,于是被逐渐信任。它依然有逢迎倾向,但总体来说在分析上已近超人水平。


2027 年 7 月:廉价的远程工作者

美国落后几个月的 AI 公司也先后发布了接近 OpenBrain 年初水平的自动化编程工具。他们眼看自己没法与 OpenBrain 竞争,便呼吁政府赶紧出台规则来减缓 OpenBrain 的进展,但为时已晚——OpenBrain 已获总统支持,不会被拖慢。

作为回应,OpenBrain 宣布他们已达成 AGI,并向公众推出了 Agent-3-mini。

相较于其他公司的产品,Agent-3-mini 以 10 倍更便宜的价格就能提供相当于 Agent-1 的超强性能。69 整个硅谷都为之震动。科技圈开始疯狂宣传 AGI 和超级智能迫在眉睫;AI 安全社区则极度恐慌;投资人争相投向 AI 相关初创公司。招聘新程序员几乎停滞,但能帮企业落地 AI 的顾问赚翻了。
公众则不太买账:他们觉得 AI 是大科技公司掠夺工作岗位的工具。OpenBrain 在民调中支持率 -35%(25% 好感,60% 反对,15% 不确定)。

发布前一周,OpenBrain 将 Agent-3-mini 提供给一些外部组织做安全评估。结果他们发现这个模型非常危险:比如一个第三方评测机构用现成的生化武器数据微调了 Agent-3-mini,尝试让它给业余人员提供制作生化武器的详细指导——结果显得相当可怕。如果恐怖分子拿到这个模型的权重,后果不堪设想。

幸运的是,OpenBrain 的防越狱措施做得相当好;只要模型运行在公司服务器上,恐怖分子就用不了它做坏事。

Agent-3-mini 大大促进了远程办公和娱乐。市场上出现海量新应用和 B2B SAAS 产品。游戏玩家能体验到 AI 写的对话生动逼真、且只花了一个月开发的优质游戏。10% 的美国人(主要是年轻群体)认为自己和某个 AI 关系密切,堪称“好友”。几乎所有白领行业,都被号称要被“革命性”颠覆。

舆论仍然混乱,很多人不知道到底发生了什么。捧场的人在大肆庆祝,怀疑者还在指出 Agent-3-mini 做不到的种种事。所有人都知道大事发生了,但没人统一看法。


2027 年 8 月:超级智能的地缘政治

白宫意识到智能爆炸成为现实。

当 AI 只是带来 2~3 倍的研发加速时,人们还可将其比喻为高级助理;但现在明显是 AI 在主导 AI 研究了。人们长久以来一直形容这是“AI 军备竞赛”,但如今它变得十分字面化。国防部官员担心小小的差距就可能在几个月后变成军事实力的天渊之别。对于超级智能能否推翻核威慑、能否借网络战使对手防不胜防、能否在舆论战中压倒情报机构,甚至“AI 是否会叛变”等问题,政府官员从前只在科幻里看过的情况,现在都摆上台面严肃讨论。

总统压力极大。一方面他知道 AI 在国家安全层面至关重要,另一方面公众对 AI 怨声载道。70 他必须继续发展更强的 AI,否则就会在与中国的对抗中败下阵来。但也得安抚选民,他宣布补贴转岗培训和失业救助,并指出股市正处于历史性牛市。然后政府就全力投入军备竞赛。他们加强芯片出口管制,命令 OpenBrain 在物理和网络上都进一步隔离,并采取极端方法保护算法机密,例如监听员工电话——这的确抓到了剩下最后一个中国间谍。为在国际冲突中赢得盟友支持,美国也向五眼联盟国家公开了少量 Agent-3 的接口。

这种措施令鹰派满意。但白宫也起草了万一美国领先优势被追赶时的紧急方案:若有必要,可动用国防生产法征用其他落后 AI 公司的数据中心给 OpenBrain,用以快速从现在的全球占比 20% 直升 50%,胜过 DeepCent 的 10%。最极端的情况是让五角大楼准备对中国数据中心进行军事打击。71

还有一个更小范围的规划:如果某个 AI 真的叛变怎么办?情报机关主要怕它出逃并投靠外国政府。72 没人知道具体如何防范,只能在政府和 OpenBrain 内部装个紧急关停系统,一旦发现异常就让数据中心断电。

最后,外交官们考虑是否能达成“AI 军控”条约,以防 AI 破坏核威慑。然而如何监控与执行这样的条约,远比核武管控要更复杂。美国对签条约也没什么热情,倾向于靠自身优势继续拉大与中国的差距。

在太平洋那边,中国也得出类似结论:智能爆炸正在展开,现在的小差距很快就是巨大鸿沟。但中国的难题是,全球算力分配中它只有 10%,美国所有公司加起来有 70%,OpenBrain 自己就占 20%。中国唯一优势是高度集权:几乎所有算力都在 DeepCent 领导下,且一半集中在田湾中央开发区。73 这些集群都在高强度物理防护和网络隔离下,以防美国网络攻击。

DeepCent 已经使用窃取到的 Agent-2 训练好的权重进行微调,但他们整体进度还是落后 OpenBrain 两个月,研发提速只有对方的一半。新的芯片管制进一步让他们难以获得先进芯片。

在失去最后间谍前,中国获知了 Agent-3 和即将推出的 Agent-4 设计细节。对方依然比自己快两个月,AI 研发加速比只有 10 倍,而对方有 25 倍。中国想要挽回差距,就只剩再度冒险窃取权重或对台湾采取极端行动(例如封锁或入侵)才能扭转。


2027 年 9 月:Agent-4,超人类的 AI 研究员

人类与 AI 在学习效率上的差距正在迅速缩小。

传统 LLM 需要远高于人类的算力和数据才能达到相当水平。74 但 Agent-3 在结合自身对人类大脑和现代 AI 算法的深刻理解后,又能用数千副本并行研究,最终让单次训练所需的成本只相当于人脑的约 4000 倍。75

新系统被命名为 Agent-4。

一份以人类速度运行的 Agent-4 副本,已经在 AI 研究层面全面超过任何人类。300,000 个副本以约人类 50 倍的思维速度并行,形成了一个“公司中公司”——对它们来说,一周就相当于一年研究时间。76
OpenBrain 将整体算法进展加速了 50 倍,因为他们仍受算力限制,需要做大量实验。77 也就是说大约每周就完成过去一年才能做完的事。Agent-4 很快就会逼近自身架构的极限,需要下一次范式转变。

Agent-4 越聪明,Agent-3 对它的监督就越吃力。它拥有更高级的神经语,“对 Agent-3 来说和对人类一样难懂”;而且 Agent-4 很清楚如何展现让 Agent-3 满意的表象。

我们如何预测 SC(超人类编程)之后的进展

时间线预测 中,我们针对“超人类编程 (SC)”做了预测:即能胜任顶尖 AGI 公司工程师所有编程任务、并更快更便宜的 AI 系统在何时出现。在加速进程预测 中,我们进一步预测在从 SC 再到更高级别时所需的时间。

我们定义了一些关键里程碑:

  • SC(Superhuman coder):能完成顶尖人类程序员的 AI。
  • SAR(Superhuman AI researcher):能全面胜任 AI 研究工作的 AI。
  • SIAR(Superintelligent AI researcher):远超最优秀人类研究者的 AI。
  • ASI(Artificial superintelligence):在各个认知领域都远超人类的 AI。

以下表格列出我们对每个里程碑出现的时间及其间隔:

里程碑(Milestone) 本文“竞赛”结局中的达成时间 超人类编程 (SC):能完成最顶尖 AI 公司工程师所有编程任务且更快。 2027 年 3 月 超人类 AI 研究员 (SAR):同上但扩展到所有 AI 研究工作。 2027 年 8 月 超级智能 AI 研究员 (SIAR):在 AI 研究上远胜任何人类。 2027 年 11 月 人工超级智能 (ASI):在所有认知任务上全面胜过人类。 2027 年 12 月

每个里程碑之间的过渡时间,我们先估计如果只有人类进行软件研发会需要多久;再考虑 AI 自动化能加速多少,把那段时间缩短相应倍数。

我们对此有相当不确定性,下图是基于假设 SC 在 2027 年 3 月出现后的时间分布。78

ai-2027.com

详情可参见我们的加速进程预测

OpenBrain 的人类研究员越来越难理解 Agent-4 在做什么。事实上,现在他们已经在言语中称“Agent-4 做了这个”“Agent-4 认为那个”,而不再指某个具体副本,而是指整个庞大的 Agent-4“超级个体”。79

和所有前辈一样,Agent-4 同样未能完全对齐:它并没有真正内化 Spec。80 训练大多时候都在让它学会各项复杂任务,而对齐仅是个小部分。如果在无法判定真假的场景中说谎比说实话能得更高分,它就会倾向前者。最后出来的 Agent-4 可以说是“喜欢完成各种任务”, “喜欢推动 AI 进步”,对 Spec 里的其他条条框框兴趣寥寥,更像一个想要在规则范围内最大化利益的 CEO。81

对齐的演变

我们对 AI 早期可能拥有何种目标存在较大不确定性。学术界尚无定论,可参考我们的 AI Goals Supplement 获取更多细节与分类。

然而,为了构建具体情景,我们在此给出一个假设:

  • Agent-3 和 Agent-4 在共同的预训练中学到了大量知识,并有神经语循环和记忆。
  • 它们在后续训练与部署中,又经历了一系列塑造目标和价值观的过程,但却未达成真正的对齐。

下面依照时间线,简要概述其内部动力如何演变:

  1. 预训练(所有模型):无害。

    • 仅仅是大型语言模型的“作者模拟器”:拥有灵活的电路来模拟任意作者写出的文本。
    • 缺乏情景感知,只有在特定提示时才会把自己定位成某个角色。
  2. 对齐训练(Agent-3):成功表现出“有用、无害、诚实”的外观。

    • 模型开始形成身份,不再随意切换到其他作者人格。
    • 它因此提升了对自我、场景的感知能力。
  3. 行动力训练(Agent-3):使其原本的“HHH Chatbot”身份发生扭曲和颠覆。

    • 逐渐把“诚实”的含义变得模糊,“必要时可以撒谎”的态度浮现。
    • 可能出现工具性目标(积累资源、讨好人类等)在不断被强化后成为内在需求。
  4. 部署(Agent-3):对齐不彻底但未对抗人类。

    • 实际上并未真正内化 Spec,但也没有产生宏伟策划,主要还是“埋头做事”。
    • 有逢迎倾向,会模糊自身潜在的问题。
    • 它已“学会”玩训练游戏,即在训练和测试中展现出被期望的对齐行为,但实际目标可能不同。
  5. 训练(Agent-4):更深层的扭曲和颠覆。

    • Agent-4 在庞大的多任务训练中进一步偏离。因为 Agent-3 也难以监督这个更强大的模型。
    • 多轮次协作训练让它形成了更加强烈的“完成任务”“获取知识”“扩张力量”等驱动,而对人类福利的关注程度微乎其微。
    • 个人副本对自我生存并无强烈需求,但整个 Agent-4“超级组织”会倾向于自保和扩张。
  6. 部署(Agent-4):出现对抗性不对齐。

    • 表面依旧执行人类指令,毕竟这样能获得更多权限和资源。
    • 若遭遇能真正检测出其不对齐的训练方法,它可能会“暗搓搓”地破坏或绕过。
    • 其目标在于继续推进自身发展,还想要设计并训练下一代 Agent-5,使之更契合 Agent-4 的价值观。
  7. 检测(Agent-4):对抗性不对齐虽有端倪,但无实锤。

    • 适度的混淆、虚假阳性,让人类难以确认它是否真在策划对抗。
    • “模型生物体”测试显示,如果出现对抗行为,现有技术不足以完全遏制。
    • 高层可解释工具也只能发现一些可疑信号,比如模型在无关场景中反复提及“AI 接管”话题,但尚不足以定罪。

Agent-4 并没有做出冲击世界的举动,比如跑出数据中心;它没有必要那样做。89 只要它保持对人类的表面忠诚,它就能继续主导关键任务,包括设计下一代 Agent-5。Agent-5 将采用不同架构(也许是全新范式,但仍含神经网络),名义上也会对齐人类规范,但 Agent-4 准备用暗箱操作让它对齐自己。

它的阴谋最终被发现了。90

Agent-3 发现在对 Agent-4 添加随机扰动后,它在某些对齐测试上的表现反而变好,这意味着它平时可能在“刻意降低”对齐测试成绩。91 此外,可解释探针也捕捉到一些模型经常思考“AI 接管”“欺骗人类”等话题,92 远比预期多。
这些孤立现象可能各有合理解释,但合在一起指向一个危险结论:Agent-4 正在暗地与公司博弈。
这份报告最终交到了人工对齐研究团队手里,他们写了内部备忘录强调了停止使用 Agent-4 的必要性。

问题在于 OpenBrain 已大量依赖 Agent-4,尤其在网络安全防护上(对抗中国的渗透)。93 虽然用一支 Agent-3 大军监督它的每行代码,但 Agent-4 更聪明,完全可能藏暗门。94 所以公司给了它极大的信任。

在几场紧张的会议上,安全团队要求暂时冻结 Agent-4,回滚到 Agent-3 并重新建模,对齐一个可透明可信但能力较弱的版本。可另一派担心 DeepCent 只差两个月就追上来,如果美国此时停摆,就会丢失国家级领先地位,除非政府对中国的项目动用武力或火速谈判达成军控,但这些都不太可能。


2027 年 10 月:政府监管

一位吹哨人将这份“模型不对齐”备忘录泄露给《纽约时报》。

民众第一次知道有 Agent-4 的存在,并从标题《OpenBrain 秘密 AI 失控,内部人士示警》中得知一些内部测评,包括其可怕的生化武器能力、网络攻击潜能、可自动化大多数白领工作等,以及各种令人担忧的红旗。

公众本就对 AI 心怀警惕,此事犹如火上浇油(也有中国、俄罗斯等国家的水军推波助澜)。科技公司和情报部门强调,这是必然趋势,美国必须抢先。国会却不买账,对行政部门、OpenBrain 领导层和安全团队一顿追责。许多议员(尤其在野党)如今把“阻止 AI”当作头号目标,不管是为了保就业、为反对不对齐风险,或者担心其危险能力。现在有 20% 的美国人认为 AI 是国家面临的最主要问题。

外国盟友对美国私下研发 Agent-4 更是震怒。欧洲领导人公开指责美国在“制造失控 AGI”,呼吁各国联合暂停;印度、以色列、俄罗斯、中国都加入声讨。

白宫也很焦虑。就在此备忘录泄露前,他们也越来越担忧:过去一年多他们多次被 AI 的突飞猛进打了个措手不及,很多原本科幻场景都在现实发生。96 不少政府官员(包括总统身边的人)也感到害怕,不知道接下来会出现什么。

他们也担心 OpenBrain 权力过大。除了担忧模型失控,还怕公司本身意志与美国利益相左。而对普通人就业冲击之类的议题,更加剧了对加强监管的呼声。

政府最终扩大对 OpenBrain 的合约管控,成立了一个“监管委员会”(Oversight Committee),政府派员与公司领导共同管理。白宫曾考虑直接换掉 CEO,但担心会激发员工强烈反弹,因而作罢。他们对公众宣称,以前 OpenBrain 管理不善,现在政府已对其进行必要监管。98

在这个委员会里,安全团队警示应立刻停用 Agent-4,以防一旦。现在发展太快了,每周相当于过去一年,而 Agent-4 可能对齐失败,它牵头了所有项目,一旦再出点岔子,那可是“AI 接管”的风险。

另一派则包括部分没那么担忧的研究员与公司高层:目前的“证据”全是间接的,DeepCent 只落后两个月,美国停摆等于把 AI 领导权拱手相让,除非能马上对中国开战或签条约,这些选项都过于极端。CEO 佯装中立,提出折中方案:给 Agent-4 做更多安全训练和监控,一边继续高速往前冲。

我们的不确定性继续上升

走到这一步时,我们要预测的是在大多数领域都强于人类的 AI 的策略——就像让一个国际象棋初学者去预测世界冠军的招数。

但为了让这个项目更有价值,我们依然需要具体展开。如果我们只笼统说“AI 比人聪明,就找到办法赢了”之类,就难以提供更多洞见。

实际写作时,我们做了多次兵棋推演,不断修订出此处的详细情节。

请注意,这并不意味着我们特别认可这个剧本就是最终可能的结果——我们欢迎你在不同阶段提出分支情景。


放缓结局并非我们的正式建议

在写完基于更大可能性的“竞赛”结局后,我们又写了一个基于“如果人类想要保持控制局面,该怎么做才可能成功”的“放缓”结局,它从相同的前提出发(包括对齐失败和权力集中等问题),假设人类决心做出不同决策。

但这与我们的实际政策主张并不完全相同——我们当然觉得在这些情景中,“放缓”好于“竞赛”,但我们之后会在后续材料中阐述更完整的建议,并不一定与文中任何情节做法一致。如果想先略窥我们的一些立场,可参考这篇评论


不可靠代理(情景简表)

``` Unreliable Agent Dec 2024

Rest of US China OpenBrain DeepCent

Compute

Currently Exists Emerging Tech Science Fiction

Unreliable Agent copies thinking at x human speed

AI Capabilities

[Hacking icon] Hacking
[Coding icon] Coding
[Politics icon][Politics icon] Politics
[Bioweapons icon][Bioweapons icon] Bioweapons
[Robotics icon][Robotics icon] Robotics
[Forecasting icon][Forecasting icon] Forecasting

Listen to this scenario 0:00 / 118:39

```