OpenAI首席研究官Mark Chen接受了Big Technology 的访谈,详细聊了OpenAI最新发布的GPT-4.5。
为何此次发布的版本被命名为 GPT-4.5,而不是 GPT-5。Mark Chen 解释称,OpenAI 的命名遵循可预测的扩展范式。与 3.5 到 4 的跃升类似,GPT-4.5 也代表了计算资源和模型效率的一个数量级提升。相比前代,GPT-4.5 具备更强的知识储备和推理能力,但仍然处于 GPT-4 系列的范畴。
对于大规模 AI 模型是否已遇到“扩展壁垒”(Scaling Wall)的疑问,Mark Chen 表示:
GPT-4.5 证明了扩展仍然有效,增加计算量和数据仍然能带来可观的性能提升。
Mark Chen 强调,GPT-4.5 是 OpenAI 在无监督学习(unsupervised learning)路径上的最新扩展,同时他们也在探索推理(reasoning)方向的突破。这两个发展方向是互补的,知识的积累为更复杂的推理能力提供了基础。
访谈概要:
GPT-4.5 正式发布
Mark Chen 介绍了 GPT-4.5,这是 OpenAI 迄今为止最强大、规模最大的模型,并于今天正式发布。他表示,该模型代表了 OpenAI 在可预测扩展(scaling)方面的最新里程碑,类似于 GPT-3.5 到 GPT-4 的跨越式升级。
为什么不是 GPT-5?
主持人提问为何这次升级仍被命名为 GPT-4.5,而非 GPT-5。
Mark Chen 解释称,OpenAI 在命名时会考虑其扩展趋势。从 3 到 3.5,再到 4,扩展的计算量和效率提升是有一定模式的,而 GPT-4.5 仍然符合这一模式,因此决定命名为 4.5。
GPT-4.5 的主要改进
Mark Chen 提到 GPT-4.5 主要在两个方面进行了扩展:
- 无监督学习(Unsupervised Learning):增加计算量、改进算法效率以及扩展数据规模,使其在基础知识和能力方面得到显著提升。
- 推理能力(Reasoning):OpenAI 在过去 1-2 年间大力研究 AI 的推理能力,以更好地处理复杂问题。GPT-4.5 既延续了无监督学习的扩展路线,也为未来的推理能力升级打下了基础。
计算扩展是否遇到了瓶颈?
对于大规模 AI 模型是否已遇到“扩展壁垒”(Scaling Wall)的疑问,Mark Chen 表示:
- GPT-4.5 证明了扩展仍然有效,增加计算量和数据仍然能带来可观的性能提升。
- 无监督学习和推理能力并不矛盾,而是互补的。知识储备是推理能力的基础,而 GPT-4.5 通过规模扩展提供了更多知识,为未来的推理能力奠定了基础。
GPT-4.5 在实际应用中的优势
相较于推理模型(如 OpenAI 近期研究的 DeepSeek 和 01 模型)
GPT-4.5 更适用于:
- 生产力工具:在日常知识工作中,相比 GPT-4,GPT-4.5 在 60% 的情况下更受用户青睐,在更复杂的知识任务中这一比例甚至达到 70%。
- 写作和创造力:GPT-4.5 在创意写作、内容生成方面表现更优,能够更自然、更富有情感地进行表达。
- 编程:在部分编程任务上,GPT-4.5 也有更好的表现。
- 科学领域:在特定的科学研究和技术领域,由于更丰富的知识储备,它的表现比之前的模型更优秀。
大模型 vs. 小型专用模型
主持人提到目前业界有观点认为,未来 AI 可能会向“小而专”(Niche Models)的方向发展,而非“一统天下”的大模型(God Models)。对此,Mark Chen 回应:
- OpenAI 既关注大规模的前沿模型,也在提供成本更低的小型模型(Mini Models),以适应不同用户需求。
- OpenAI 的核心使命是推动 AI 智能的前沿发展,并认为最顶尖的 AI 能够推动科学发现、解决复杂问题,因此仍会致力于构建最先进的大模型。
GPT-4.5 的评测基准(Benchmarks)
GPT-4.5 在所有传统评测基准(如 GPQA、MMLU、数学等)上都达到了预期的进步,与 GPT-3.5 到 GPT-4 的提升幅度类似。
此外,OpenAI 这次还特别强调了模型的 情感智能(EQ):
- 在面对情感化问题时,GPT-4.5 能够提供更自然、更具共鸣的回应,而不是简单地提供标准化建议。
- 例如,以往的 GPT 模型在回答“我今天过得很糟糕”时,可能会提供冗长的心理健康建议,而 GPT-4.5 的回答更简洁、更人性化,例如“我理解,你愿意和我聊聊发生了什么吗?”。
未来发展
- OpenAI 仍在不断推进推理能力和基础模型的扩展,未来的 GPT-5 可能是这两者的结合体。
- OpenAI 也在优化模型的推理效率,例如研究 混合专家模型(Mixture of Experts, MoE) 以提高计算效率并降低推理成本。
访谈视频:
访谈全文转录
大科技播客:OpenAI首席研究官马克·陈谈GPT-4.5发布
以下为根据原视频采访整理的文字记录,并翻译为简体中文。为了方便阅读,去除了多余的口头衔接词,保留了核心内容和对话结构。
主持人(Host)
大家好,欢迎来到「Big Technology Podcast」。这里注重对科技行业及其延伸领域进行冷静、深入的讨论。今天我们迎来了重量级嘉宾:OpenAI 的首席研究官(Chief Research Officer)Mark Chen。Mark 将和我们聊聊最新发布的 GPT 4.5——这是 OpenAI 迄今为止规模最大、性能最强的模型之一,并且就在今天正式上线。Mark,很高兴见到你,欢迎作客节目。
Mark Chen
非常感谢邀请我来做客,很高兴能和大家分享。
一、GPT 4.5 与 GPT 5 的命名区别
主持人
这次发布的 GPT 4.5 让不少人都相当期待。很多人原本以为,GPT 4 之后的下一个版本就该是 GPT 5。能否先谈谈为何此次不是直接命名为 GPT 5?以及我们应该如何理解 GPT 5 的里程碑含义?
Mark Chen
当然。当我们为模型做命名决策时,最重要的一点是要符合自身在「可预测的规模化(predictable scaling)」路线图上的位置。我们过去的模型像 GPT-3、GPT-3.5、GPT-4 都遵循了相似的规模化方法,GPT 4.5 也是此流程下的最新节点。
简而言之,我们要确保模型的命名能准确反映它在训练规模和能力提升方面的幅度。GPT 4.5 跟 3.5 跳到 4 时的方式相似,和 4 到 5 之间可能还会有更大跨度。我们希望名字能客观体现这一点。
主持人
不少人都在问 GPT 5 什么时候会面世。目前来看,4 到 4.5 之间的间隔貌似比 3.5 到 4 时还要久一些。这里面除了人们对进度的焦急,也有很多关于新版本功能的期待。你们如何看待外界对 GPT 5 的高期待?下一代升级要达到什么水平才会称作 GPT 5?
Mark Chen
我们内部进行研究时,其实有两个「规模化维度」同步进行:
- 无监督学习(unsupervised learning):通过更多算力、更多数据来使语言模型变得更强;
- 推理(reasoning):我们也在研发全新的「思考」机制,让模型在回答前能够先进行多步推断。
有人会觉得 4 到 4.5 的时间稍长,主要是因为我们在这段时间里也集中精力探索和打磨了全新的推理范式,并非只是单一地扩大模型规模。GPT 4.5 正是一次「无监督学习规模化」方面的成果,随着推理能力的突破,我们今后会把这两种能力融合在一起,在 GPT 5 阶段实现新的飞跃。
二、GPT 4.5 的规模化与性能提升
主持人
外界常说“大模型”会碰到「规模瓶颈」,即投入更多数据和计算资源后,性能提升会走向递减。这次 GPT 4.5 号称是 OpenAI 规模最大的模型,能否谈谈训练时的规模、数据量,以及你们是否碰到瓶颈或收益递减的问题?
Mark Chen
从我们长期的实验观察和数据来看,并没有遇到所谓「规模化收益递减」的严重瓶颈。GPT 4.5 就是再次验证了这个「可预测规模化」路径。它在训练中使用了新的算法优化与工程手段,并且相对于上一代,整体算力和数据都得到了数量级的提升。
另外,GPT 4.5 的训练并不只是一条路走到黑那种简单加资源,而是会在流程中阶段性地暂停、观察并进行改进。其实这并不是 GPT 4.5 独有的事,在 GPT-4、甚至更早的实验性模型训练时也如此。模型越大、实验越复杂,就越需要灵活地进行调参与微调,而不是一条龙跑到底。
三、推理模型与传统语言模型的不同
主持人
你刚才提到对「推理」的投入也很大,比如说有一些项目像 DeepSeek(DeepSIC)之类,强调模型在回答前可以自行思考。这是不是意味着行业会从单纯的大模型,转向更「会思考」的模型?GPT 4.5 和类似的推理模型之间该如何区分使用场景?
Mark Chen
这其实是两个相互补充的方向。
- 无监督大模型(GPT 4.5 等): 在用户输入后可以立刻给出回答,知识面覆盖广。
- 推理模型(例如 01 系列等): 接到问题后会花更长时间进行多步骤思考,有时几分钟才能反馈,但可能在深度和逻辑上更胜一筹。
在某些场景下,比如需要迅速生成高质量创意写作、提供知识查询、生成代码等,GPT 4.5 这一类更快响应的模型是理想选择。对于非常复杂的科研任务或多步数学推理场景,可能推理模型更能发挥优势。
四、GPT 4.5 的新特性与 Benchmark
主持人
能否具体介绍一下 GPT 4.5 相比 GPT-4,在各种基准测试(Benchmark)上的表现如何?你们又为何在官方介绍中特别提到了“情商(EQ)”方面的改进?
Mark Chen
在各种常见的语言模型基准上,GPT 4.5 都有一个显著跃升,基本维持了从 3.5 到 4 那种幅度,包括自然语言问答(QA)、学术测试、编程题等,4.5 的得分都更高。
不过更值得注意的是,它在一些「软性」或「情感交互」上的能力也明显更好。比如它在安慰用户、回应用户情绪,或者就困难处境给出更贴心的回答时,风格更自然,不会像以前那样一味列举五大自我护理方法,而是先表达理解,随后再给针对性的建议。
此外,还有像生成 ASCII 艺术这样之前模型常常出错的小技能,GPT 4.5 也做得更准确。我们很高兴看到这些“细节”的进步。
主持人
有人可能会质疑:“OpenAI 是不是因为在传统Benchmark上没法做到特别抢眼,就转向宣传情绪识别或情感交流?” 你怎么看?
Mark Chen
其实我们的模型在传统 Benchmark 上依然有非常好的表现,完全符合我们对规模化后性能提升的预期。之所以想强调类似情绪或情感交互的能力,是因为在用户真实使用场景中,这种「温度感」和「理解感」往往很关键。每一次新版本推出时,我们都会去观察它实际能为用户解决什么新问题,让用户亲身体验和挖掘更多用法,而不只是盯着测试分数。
五、大模型与小模型
主持人
我们在社区里经常会听到另一种声音:与其把模型越做越大,还不如发展一些针对特定场景或领域的“小模型”,因为「小而美」或许更能高效解决特定需求。对此你怎么看?
Mark Chen
实际上,我们自己也在提供不同规模的模型:旗舰级的“前沿大模型”,以及相对小一些、成本更低的模型,满足用户的各种性能和成本需求。
OpenAI 的核心使命是不断推进 AI 智能的前沿,去探索那些极限的智能水平。因为在我们看来,哪怕是从「99.9% 的水平」再往上提高一点,都可能带来质变。例如在数学、科学研究领域,顶尖人类科学家能做到的事情,要远远超出普通人的水平。人工智能若能追平甚至超越顶尖专家,就可能推动新的重大发现。
与此同时,我们也会把大模型的成果转移到体量更小、成本更低的模型上。所以两者并不冲突,而是相辅相成。
六、关于模型与产品
主持人
我们节目里有个经常出现的争论:到底该优先“打磨产品”,还是把精力花在“继续提升模型”?有人主张应该利用好目前已有的 GPT-4,做出更多实用的产品;也有人说升级模型本身会让产品自然而然地获得更大突破。你的看法如何?
Mark Chen
我个人认为,模型和产品其实是相辅相成的。当模型本身的能力再向前迈进一大步时,你能够在产品层面实现过去想做但做不到的功能。比如 ChatGPT 刚出来时,大家就发现聊天机器人是个不错的产品形态;如今我们看到“智能体(Agent)”模式的兴起,更需要更强的推理和多步骤思考能力,才能让它真正做到“全自动执行复杂任务”。
因此,研发更优秀的模型,能给产品创造新的可能,也使已经推出的产品能做出远超原来预期的升级。
七、GPT 4.5 的情商与应用案例
主持人
你提到 GPT 4.5 情商更高,在一些应用里不再用“写大段陈词滥调”来回应负面情绪,而是更具同理心。能再举些实际例子吗?
Mark Chen
举个例子,如果用户说自己最近很沮丧,过去的模型往往会生成很长的自我管理或心理咨询内容。但 GPT 4.5 会先表达理解,然后简短而真诚地询问更多背景信息,邀请用户继续倾诉。这样的回答更符合人类对“自然对话”的期待,也更能让人感到被理解。
八、OpenAI 的团队与文化
主持人
最后想问问你关于 OpenAI 团队本身的情况。外界一直有一些传闻说,过去一年里 OpenAI 似乎有不少人才流动。但你自己刚升任首席研究官没多久,就带领团队推出了 GPT 4.5。能否谈谈内部的人才和团队氛围?
Mark Chen
OpenAI 依然是我所见过在人工智能领域里最具才华、最有创造力的团队之一。我们在各方面的研究和产品迭代中,都有非常坚实的人才储备。
至于有人离开去探索新的 AI 方向,我觉得在快速发展的行业里也很正常。AI 领域变化极快,谁都有可能想尝试自己的想法。但我们团队内部一直在不断吸收和培养新人,保证核心研发实力保持世界领先。
九、GPT 4.5 的上线时间与总结
主持人
好的,非常感谢你的分享。GPT 4.5 今天会率先对 OpenAI Pro 用户开放,下周向 Plus、Team、Enterprise 和 Edu 用户开放。非常感谢你在发布直播前抽空来接受采访,之后咱们再多聊聊新的模型与产品进展。
Mark Chen
谢谢邀请,也很高兴能够在正式发布前和你们交流。
主持人
感谢各位收听「Big Technology Podcast」。我们明天的节目中会和常驻嘉宾深度探讨有关 GPT 4.5 的更多细节。再次感谢 Mark 和 OpenAI 的配合,我们下期再见。
完