近日,OpenAI CEO Sam Altman 出席了一场深度访谈活动,分享了他从 2016 年创业至今的发展历程、对人工智能(AI)行业现状的洞察,以及对未来趋势的预测。
他首先回顾了OpenAI的创立和发展历程
2016 年,Sam Altman 与十几名同伴在一间小办公室内,围着白板探讨人工智能方向,当时的他们甚至还未明确大型语言模型(LLM)的具体概念,只是在尝试“玩视频游戏”。
Altman 回忆到:“当时我们只是坚信某个方向是对的,却没有明确的计划,更没有想到自己会站到今天的舞台上。”
最初 OpenAI 的探索方向很多,从游戏到机器人手再到无监督学习模型,这才逐渐明确了 GPT 系列的发展路径。
以下是一些主要内容摘要:
第一款产品并非 ChatGPT
- 首个真正的“消费级”产品是 DALL·E 图像生成模型。
- 真正的第一个商业产品是 GPT API,在 2020 年 6 月左右推出 GPT-3 API。
高速发布节奏的秘密
- 保持“小团队 + 高责任”原则,确保每人都有实际产出。
- 避免官僚化:维持小团队运作,让少数人承担大量责任,而非“几十人坐在会议室争吵细节”。
- 保持忙碌状态:确保研究人员、工程师和产品团队始终处于忙碌且高效的状态。
- 公司增长必须伴随产品产出增长,否则容易陷入“人员膨胀+会议泛滥”。
产品战略方向
- OpenAI 将自己定位为“核心 AI 订阅服务”,围绕 ChatGPT 展开。
- 将继续扩展 API、SDK,并探索平台化(Platformization)可能性。
- 长远目标:打造“未来操作系统级别的 AI 平台”。
模型、算力与算法
- 三大支柱:更好的模型(Smarter Models)、更强的计算基础设施、更广泛的社会嵌入。
- 模型规模持续扩大,从 GPT-3 到 GPT-4,再向更高演进。
- 算法创新将是最大杠杆,未来可能还有一两次“10倍或100倍”的突破;
- 编码能力将成为AI核心竞争力,未来的模型需要具备执行操作甚至写出完整程序的能力;
- 语音技术将是 OpenAI 接下来着重投入的领域,目标是将语音交互做到与人类无异,进而催生新的交互模式甚至设备类别。
ChatGPT 的未来形态
- 长期目标:无限上下文记忆 + 无需微调的个性化体验。
- 理想状态:“用户所有生活数据、对话、行为”都在上下文中,即可实现完全个性化。
年轻用户的使用方式:ChatGPT 作为操作系统
访谈中,Altman 特别提到年轻一代使用 ChatGPT 的独特方式:
- 年长者将 ChatGPT 当作搜索引擎;
- 20-30岁的年轻人将其视作生活顾问;
- 大学生则将 ChatGPT 当作个人操作系统,进行更深入的互动和协作。
这种代际使用差异让他尤其惊叹:“年轻人几乎在所有重大决策前都会咨询ChatGPT,他们把提示词记在脑子里,跟模型之间的互动非常复杂。”
对定制化的态度与愿景
Altman 表示,现阶段的模型定制化是向理想状态的妥协,而理想状态是:
“一个小型推理模型,拥有数万亿token的上下文,涵盖你一生的全部数据,无需频繁重新训练,就能精准推理你的个人数据。”
行业观察与企业转型挑战
对于大公司在AI时代的转型困境,Altman认为:
- 大公司容易被旧有规则束缚,每次技术革命初创公司总能胜出;
- 大公司决策缓慢,难以适应快速变化的环境,而年轻公司能更快适应和创新。
他指出:“公司本质是个人行为的延伸,年轻人更容易适应AI工具的迅速变化,大公司则常常滞后。”
对创业者建议:面对逆境的韧性与耐力
访谈末尾,Altman 分享了自己对于创业者在面临逆境时的建议:
- 真正难的并不是危机当天,而是危机后的漫长余波;
- “逆境下的情感韧性和承受能力是需要持续训练和培养的。”
他鼓励创始人:“随时间推移,虽然风险越来越大,但处理问题的心理承受能力也会随之变强。”
访谈视频
访谈内容文字翻译
主持人:
我们的下一位嘉宾无需介绍,所以我就不多说了。我只想说,Sam Altman 已经连续三次参加我们的 AI 活动,我们非常感激他一直以来的支持。欢迎你,Sam。
Sam Altman:
谢谢你。很高兴回来,这就是我们当年的第一个办公室。
主持人:
真的?再说一次?
Sam:
对,这就是我们最早的办公室。能回到这里真不错。
主持人:
让我们回到最初的办公室时光。你是在 2016 年开始的。我们刚请到 Jensen(黄仁勋)来,他说他当时在这交付了第一台 GGX1 系统。
Sam:
他是这么说的?是的,想想现在那些机器多小……虽然现在的设备还是很大一块。但这是一个很有趣的回忆。
主持人:
当时多重?
Sam:
他说大约 70 磅。确实挺重的,但还能搬动。
主持人:
那么你在 2016 年的时候,是否曾想过今天会站在这里?
Sam:
没有。那时候我们大概 14 个人,坐在那里围着白板,讨论我们到底要做什么。我们完全是一个研究实验室,有很强的信念和方向,但没有具体的行动计划。当时不但没有“公司”和“产品”的概念,甚至大型语言模型还远未成形。我们那时的目标只是“让 AI 能玩游戏”。
主持人:
你们用了六年才推出第一个面向消费者的产品——ChatGPT。在那之前你们是如何设定阶段性目标的?
Sam:
其实第一个面向消费者的产品并不是 ChatGPT,而是 DALL·E。但严格说来,第一个真正产品是 API。我们尝试了很多方向,比如我们当时想:“我们得造一个系统来验证我们是否走在正确的路上,而不是仅仅写论文。”所以我们尝试让模型玩电子游戏、控制机器人手等。
后来,最开始是一个人,然后是一个小团队,他们对无监督学习和构建语言模型产生兴趣。那就促成了 GPT-1,然后 GPT-2。到了 GPT-3,我们认为“这个东西有点意思”,但我们不知道该怎么用它,也意识到我们需要更多资金去做更大的模型,比如 GPT-4。训练这类“十亿美元模型”,光靠科学实验的方式很难持续,除非你是像粒子加速器那样的科研机构——但即便如此,也很难。
所以我们开始思考:我们既要把这件事变成一个可持续的商业系统,又认为这项技术将变得有用。我们放出 GPT-2 的模型权重,反响平平。我观察到一个现象:很多 YC(Y Combinator)公司,如果做 API 产品,往往都能跑得还不错。而且,如果你把某项技术做得更易用,一般也会有巨大回报。
当时模型越来越大,部署越来越难,我们就说:“我们来写个好用的软件来托管这些模型吧。”与此同时,我们并不打算直接做一个产品,而是希望有人能基于我们的 API 构建产品。
我记不太清确切时间,大概是 2020 年 6 月,我们发布了 GPT-3 API。公众没什么反应,但硅谷的一些人注意到了。他们觉得:“哦,这东西挺有意思的。”有些人甚至认为这就是 AGI(通用人工智能)的雏形。但真正用 GPT-3 API 做成生意的,大概也就只有一些“AI 写文案服务”的公司。GPT-3 在这个方向上刚好达到了“经济实用”的门槛。
但我们注意到一件很有意思的事:虽然没人能用 GPT-3 API 做出太多产品,但大家都很喜欢在“playground”里和它聊天。尽管它当时的聊天能力很差,因为我们还没有做强化学习人类反馈(RHF),但大家还是很喜欢跟它对话。
除了写文案之外,这大概是唯一一个“杀手级应用”了,这也是促使我们做出 ChatGPT 的关键线索。等到我们推出 ChatGPT 3.5 的时候,基于 API 能够构建生意的方向已经从一个变成了八个,但我们的核心信念越来越清晰:人们就是想跟模型对话。
我们之前已经做了 DALL·E,它表现还不错。但随着模型可微调能力的增强,我们很清楚我们想构建一个“让你和模型对话的产品”,于是就有了 ChatGPT。它是在 2022 年 11 月 30 日上线的,从我们成立算起大概六年。现在,每周有超过 5 亿人使用这个产品。
主持人:
最近六个月你们发布的节奏非常快,怎么做到的?很多大公司越做越慢。
Sam:
很多公司变大后不再“做更多的事情”,只是人变多了,但产出没变。他们维持相同的产品线、产出节奏,导致流程变慢、效率下降。我相信“让每个人都忙碌”是关键。我们倾向于保持小团队、承担大量责任。否则你就会有“40 个人开同一个会议”,为了一个小功能吵翻天。
从商业原则来说,一个优秀的高管一定是忙碌的——因为如果他闲着,他很可能就在瞎折腾。研究员、工程师、产品经理才是产生价值的人。你让这些人保持高强度、高产出,就是最优解。
我们现在要构建一个真正重要的互联网平台。如果我们真能成为每个人“日常 AI 助手”,那我们要覆盖他们人生中的各种服务、场景、平台和设备。那就意味着我们必须构建大量功能——而不是等待。
主持人:你最近半年最骄傲的产品?
Sam:
我觉得现在的模型本身就非常棒。当然它们还有可以提升的空间,但 ChatGPT 之所以是好产品,很大程度就是因为模型好。我们也做了很多产品层的事,但“模型强大”是核心。
主持人:你们做了这么多事情,别人该怎么避免被你们“压路机式地碾压”?
Sam:
我们希望成为用户的“核心 AI 订阅服务”。我们会构建一个越来越聪明的模型,同时建立一些类似操作系统的界面、未来设备、入口。但我们还没有完全搞清楚 API、SDK 这些平台接口的标准,可能还需要尝试几轮。
但一旦确定下来,我们希望能催生出大量的财富与机会,帮助其他人基于此构建。我们的目标是做模型、做订阅、做几个关键场景服务,其他的欢迎大家来构建。
主持人:外界传你们正在以 3400 亿美元估值融资 400 亿美元?
Sam:
我们已经公布了。
主持人:你们的“野心”下一步是什么?
Sam:
没有什么“宏伟蓝图”,我们就只是继续构建好模型、发布好产品。我们不做“逆推法”计划。我们相信专注眼前每一步,比从终点向后倒推要好。
我们知道我们需要更大的 AI 基础设施、更强的模型、更好的消费者产品,我们灵活、快速调整战术。明年要构建的产品,现在我们可能还没想出来。
我对我们的研究路线比以往任何时候都更有信心。
主持人:所以你更相信“顺势向前”而非“逆推蓝图”?
Sam Altman:
是的。我听过一些人谈他们如何“规划路径”,比如“我们先做这个,再做那个,最后统治世界”,然后再推回今天的起点——我从没见过这种人最终真的成功。
观众提问:你觉得大型企业在转型为 AI 原生组织方面出了什么问题?
Sam:
我觉得这是每一次技术革命都会出现的情况。没什么可惊讶的。问题在于:他们像过去一样陷入路径依赖。
当你面对的是一个每个季度都变化剧烈的世界,而你的“信息安全委员会”一年只开一次会,讨论允许哪些应用程序、如何接入数据……这就是灾难。
大公司被自己的流程和文化所困。他们试图假装这一切变化不会重新塑造整个行业,但最终,他们只能在最后关头仓皇“投降”。而初创公司则轻松超车。
这不仅是组织现象,也是代际差异。比如你去观察一个 20 岁年轻人是如何使用 ChatGPT 的,再去看一个 35 岁的人怎么用,差别惊人。就像当年智能手机出来时,孩子们一下就能熟练操作,而成年人用了三年才会基础功能。
这种代际差异现在在 AI 工具上特别明显,公司组织只是这种现象的延伸。
观众提问:年轻人使用 ChatGPT 的方式有哪些特别之处?
Sam:
他们真的把它当作“操作系统”来用。
他们有一整套流程,把 ChatGPT 连接到各种文件,有复杂的 prompt 记在脑子里,或者保存在其他地方,随时粘贴使用。
他们甚至在做人生决定前,都会去问 ChatGPT。它拥有他们与朋友之间的聊天历史、生活上下文,有了“记忆功能”之后,这种关系变得更深。
总结一下:
- 年长用户把它当成 Google 替代;
- 20–30 岁的用户把它当“人生顾问”;
- 大学生则把它当“AI 操作系统”。
观众提问:OpenAI 内部是如何使用 ChatGPT 的?
Sam:
它写了我们很多代码。确切比例我不知道,而且我觉得用“代码行数”来衡量没意义。微软说他们 20–30% 的代码是 AI 写的,但行数不是重点。
我可以说,它确实写了“重要部分”的代码。
观众提问:既然你们的大部分收入来自消费者订阅,为什么还保留 API?
Sam:
我希望 10 年后,这些东西会融为一体。比如你可以用“OpenAI 登录”其他服务。
其他服务可以接入我们强大的 SDK,甚至嵌入 ChatGPT 的 UI。因为如果你想拥有一个能理解你、有上下文、有记忆、理解你的生活的 AI,你会想在不同场景下使用它。
虽然目前的 API 离这个目标还很远,但我相信我们会逐步实现。
观众提问:我们是构建应用层的创业公司,想使用底层组件,比如“深度研究 API”(假设的),你们会优先支持开发者吗?
Sam:
我希望我们最终能建立一个“新协议”,就像互联网时代的 HTTP 一样。
未来的互联网将是去中心化的、由许多小型组件和 agent 构成。它们互相调用工具、完成身份验证、转账、共享数据——而这一切都内建在通用协议层中。
我们现在还不清楚它的样子,但它正在“从迷雾中显现”。我们还需要几轮尝试,但那就是我理想中平台的样子。
观众提问:你是否考虑接入现实世界的传感器数据(比如温度)来提升 AI 的理解能力?
Sam:
很多人已经在做这件事了。比如有人把传感器数据输入 API(比如调用 GPT-4o),在某些场景下效果很不错。
最新的模型对这些数据的处理已经明显进步了,过去不太行,但现在表现不错。我们未来会更系统性地支持这方面。
观众提问:关于语音,你们怎么看它的重要性?它在基础设施层级里排名如何?
Sam:
语音非常重要。坦白说,我们现在的语音产品还不够好——但这没关系,文字模型一开始也不好。
我们最终会解决语音的问题。届时,我相信人们会更愿意用语音进行交互。
我们第一次发布语音模式时,我发现一件很有趣的事:你可以一边讲话一边点击手机,就像叠加式交互。这种“语音+GUI”的混合体验,很有潜力。
我们还没解决好,但一旦做到了,我认为不仅能在现有设备上表现出色,甚至可能催生一类“全新设备”。
观众提问:代码是你们的一个垂类,还是说它是未来的核心?
Sam:
代码是核心。
目前 ChatGPT 返回的是文字、有时候是图像。但理想状态下,它应该返回一整个程序。也就是说,它可以根据你的请求构建完整系统——或调用 API 实现你想要的功能。
我认为“写代码”是 AI 实现行动、影响世界的核心方式。
观众提问:除了数据、算法、算力外,还有哪些被低估的重要因素?
Sam:
每一项其实都很难。
当然,最大的杠杆还是“算法突破”。我认为我们还有几次 10 倍或 100 倍级别的进步空间——虽然不会很多,但只要一两个就能产生巨大影响。
所以,是的,还是那三大主轴:算法、数据、算力。
观众提问:你们如何平衡自由探索与项目推进之间的管理?
Sam:
有些项目确实需要“自上而下”的协调,但很多人做得太多了。我们从成立 OpenAI 时就花了很多时间研究“什么是一个好的研究实验室”。
你得回溯历史,看看过去伟大的研究机构。我们请教了很多人——当然他们中的很多人已经去世了,毕竟这种模式已经很久没出现了。
人们常问我们:“为什么 OpenAI 一直在创新,而其他实验室却在模仿?”
我们给出了我们遵循的原则、来源、经验。然后他们说:“谢谢你们的分享,我们还是会用自己的方式。”然后就失败了。
我们并不是自己发明了这些原则,而是从历史上最优秀的研究实验室中“无耻地抄袭而来”,但它们真的有效。
观众提问:你认为大模型是否能帮助我们解答人文学科中的问题,比如历史周期、社会偏见?OpenAI 是否有合作计划?
Sam:
有的,我们与学术界有合作项目,也会做一些定制支持。但大多数研究人员只是想要访问模型或底模,我们擅长这一点。
我们有合作项目,也做过定制,但我们的大部分动力都集中在“让模型更聪明、更便宜、更普及”,这其实对学界和全人类都非常有益。
观众提问:你怎么看“AI 个性化”和“定制模型”?你是更倾向于核心模型改进,还是后处理微调?
Sam:
我理想中的形态是:一个很小但强大的推理模型,拥有一万亿个 token 的上下文窗口,能装下你的一生。
这个模型永远不需要重新训练、不需要改权重,但它拥有你所有对话、读过的书、邮件、网页、数据流、公司信息,并持续地更新上下文。
这就是我理想中的“定制模型”——而我们现在做的所有微调、后处理,都是对那个理想状态的妥协。
观众提问:你认为未来 12 个月最大的价值来源是哪里?是“高级记忆”?安全?代理协议?
Sam:
我认为未来价值会集中在三个方向:
- 基础设施建设:大规模 AI 工厂、算力集群;
- 更聪明的模型;
- 将 AI 与社会融合的系统设计。
如果这三件事持续推进,其他问题都会自然而然解决。
更具体一点:
我预测 2025 年会是“AI 做事情的一年”,尤其是编码将成为主战场。
到了 2026 年,我们可能会看到 AI 协助人类做出重大科学发现。
2027 年,我认为 AI 将真正进入物理世界,机器人从“新奇玩具”变成“经济实体”。
主持人:最后几个快问快答。ChatGPT 5 会不会比我们在座所有人都聪明?
Sam:
如果你觉得你比 GPT-4o 强很多,那你可能还有点距离要追。GPT-4o 已经很聪明了。
主持人:作为创始人,你曾经也经历过公司动荡,现在有点距离了,有什么建议给台下创业者吗?
Sam:
随着时间推移,你面对的挑战会更大,赌注更高。但心理压力会变小。
你越经历困难,就越能恢复得更快。情绪韧性会增强。
而且真正难的不是危机发生的那一刻,而是“之后的第 60 天”,你在试图重建的时候,那才是最难受的时候。
危机当下,反而有肾上腺素、有支持者,但长期的恢复、心理建设,是更难的部分,也是大家常常忽略的训练课题。
主持人:谢谢你,Sam。你现在其实还在休完陪产假呢。
Sam:
是的(笑),但很高兴能来参加,感谢邀请。