信息差

独家揭秘：Ben Hylak深度评测OpenAI最新o3 pro模型，解析"垂直强化学习"战略布局

Ben Hylak对OpenAI 最新 o3 pro模型的的独家评测

o3 Pro 的定位：任务级超级推理助手

任务导向模型（Task-specific models）：
- 和日常聊天型模型（如 GPT-3.5、GPT-4o）不同；
- o3 Pro 被设计为：
  
  ✅ 面向复杂任务、深度分析
  ✅ 高度理性、冷静、非对话型
  ✅ 更像一个“执行型分析官”或“战略规划师”

评测方式：与传统 benchmark 无法评估的能力

作者评测策略：

不用对话测试；

构建“真实业务场景”+“完整上下文”；

观察其解决复杂任务的能力和具体执行建议输出质量。

🌟 评测示例：公司战略规划任务

作者将公司 Raindrop 的：
- 所有规划会议记录；
- 长期/短期目标；
- 语音备忘录；
- 团队历史内容 > 统一喂给 o3 Pro，提出：“请给出下一阶段业务战略计划”。
输出结果：
- o3 Pro 给出了：
  - 精确的目标指标（target metrics）；
  - 明确时间线（timelines）；
  - 严格优先级（prioritization）；
  - 建议删除的项目（cut list）；
- 输出质量之高，促使团队改变了战略方向。

o3 Pro 的关键优势总结

1. 🧠 智力水平极高，但需要**“喂饱上下文”**才显现

不适合用简短 prompt 测试；
需要“大量背景+明确目标”才能发挥性能；
未必适合 casual 聊天。

2. 🧩 极强的环境感知与工具交互能力

能判断自己是否需要调用外部工具；
不会编造访问不到的信息，而是明确提示需要“你告诉它”；
非常擅长调度工作、使用外部函数、API、数据库等资源。

3. 🔄 系统提示与上下文极度重要

system prompt 对其行为影响深远；
比如“你是一名产品经理”vs“你是一位安全专家”，将产生截然不同的风格与策略。

4. ⚠️ 潜在弱点：低上下文时容易过度分析

给出不充分的上下文会导致“思维过重”，容易陷入推理死胡同；
对“直接行动型”任务（如 SQL 查询）可能不如基础模型灵活。

模型对比：与同类模型的不同

OpenAI 正在走的“垂直强化学习”路径

OpenAI 不仅教模型“如何调用工具”，还教它“何时调用工具”；
推进 LLM 像人类一样判断工具使用时机，是通用人工智能的关键路线之一；
o3 Pro 是这一策略的产物。

使用建议与最佳实践（Prompt Engineering）

✅ 使用提示建议：

给足上下文（context is king）：
- 相关文档、目标、角色描述都应写入提示；
- 可类比“喂给 cookie monster 饼干”。
明确目标：
- 不要说“帮我写点内容”，而要说“基于以下数据，写一份三阶段产品上线策略”。
强化系统提示：
- 系统提示中的角色设定、任务说明对模型的“行为风格”影响极大。

总结一句话

o3 Pro 并不是你“聊天”的朋友，它是你公司里那个不会说废话的高级战略分析师。

以下是文章 《God is hungry for Context: First thoughts on o3 pro》 的全文中文翻译：

上帝渴望上下文：对 o3 Pro 的初印象

作者：Ben Hylak

正如“泄露”所说，OpenAI 今天将 o3 的定价下调了 80%（从每百万 token 的 $10/$40 降至 $2/$8 —— 与 GPT-4.1 持平！！），为 o3-pro 的推出铺平道路（$20/$80）。这支持了一个未经证实的社区理论，即“pro”变体是基础模型的 10 倍调用，并采用多数投票机制（该机制在 OpenAI 的论文和我们的《Chai》节目中都有提到）。

o3-pro 在人类测试中以 64% 胜率击败 o3，并在 4 项可靠性基准测试中略胜一筹。但正如 Sam Altman 所指出的，实际体验在你用“不同方式”测试它时才会真正显现……

过去一周我获得了 o3 pro 的早期使用权。以下是我的一些（早期）想法：

这是任务特定模型的时代。

一方面，我们有像 GPT-3.5 Sonnet 和 GPT-4o 这样的“普通”模型 —— 像朋友一样交谈、帮助我们写作、回答日常问题。

另一方面，我们有那些庞大、缓慢、昂贵、智商爆表的推理模型，它们专精于深度分析、一次性解决复杂问题，以及探索纯智能的边界。

如果你关注我在 X（原推特），你会知道我与 o 系列推理模型的“历程”。我对 o1/o1-pro 的第一印象非常负面。但随着我咬牙坚持下去，受到他人好评的驱动，我意识到：我其实用错了方法。

我写下了所有感想，被 @sama 怼了，还被 @gdb 转发引用。

我发现的关键是：不要和它“聊天”。

要把它当作一个报告生成器：

给它足够的上下文，明确目标，然后让它自己输出结果。

这就是我现在使用 o3 的方式。

但这也引出了评估 o3 pro 的难题。

它更聪明，真的聪明得多。

但如果你不给它足够的上下文，它的强大之处就不会显现。

我没法问它一个简单的问题就被震撼到。

然后我换了种方法。

我和我的联合创始人 Alexis 花时间整理了我们在 Raindrop 的所有过往规划会议记录、目标，甚至是语音备忘录，然后让 o3-pro 拿这些信息来制定一个计划。

我们被震撼了。它生成了我一直希望 LLM 能输出的那种具体的计划与分析 —— 包括目标指标、时间表、优先事项，以及明确指出哪些该舍弃。

o3 给我们的计划是“合理的”。

但 o3 Pro 给出的计划不仅具体，而且根植于我们自身的背景，以至于它真正改变了我们对未来的思考方式。

这很难通过评测来体现。

试用 o3 Pro 让我意识到，如今的模型在“孤立状态”下表现已非常强，我们已经没有“简单测试”能完全评估它们。

真正的挑战是：将它们融入社会。

就像一个 IQ 很高的 12 岁孩子去上大学。聪明归聪明，但如果无法适应社会，也不是一个好员工。

如今的“融入”主要依靠工具调用：

模型与人类、外部数据、其他 AI 协作的能力；
它是一个优秀的“思想者”，但还需要成长为一个优秀的“执行者”。

o3 Pro 在这方面真的跃进了：

明显更擅长理解自身所处环境；
能准确表达自己拥有哪些工具；
知道何时询问外部世界的信息（而不是假装知道）；
能选择合适的工具来完成任务。

o3 pro（左） vs o3（右）：

左边的 o3 pro 显然在理解自己所处环境方面更强。

从早期使用来看：

如果你不给它足够上下文，它会有过度思考的倾向。

它擅长分析、擅长借助工具做事，但不太擅长直接动手做事。

我认为它是一个出色的“编排者”。

比如，有些 ClickHouse SQL 问题，o3 做得比 o3 Pro 更好。

结果可能因人而异。

o3 Pro 与 Opus、Gemini 2.5 Pro 的区别：

Claude Opus 看起来“很强”，但从未让我看到它“强”的证据；
o3 Pro 的输出更好，完全是另一种维度的表现。

OpenAI 正在深入推进“垂直强化学习”路径（如 Deep Research、Codex）：

不仅教模型如何使用工具，更教它何时使用工具。

如何提示推理模型并没有变：

我的 o1 提示指南至今仍然适用。

上下文就是一切 —— 它就像给 Cookie Monster 喂饼干。

这是一种启动 LLM 记忆的方式，而且是有目标的，让它更有效。

系统提示（system prompt）也极为重要。

模型现在已经非常“可塑”，所以那些能教会模型其环境和目标的“提示框架”（harnesses）影响巨大。

正是这种“提示框架” —— 模型 + 工具 + 记忆 + 方法 —— 才让 AI 产品“好用”。

例如 Cursor 就是这种机制让它“大多数时间都能工作”。

其他零碎观察：

系统提示对模型行为的影响非常大（是积极的变化）；
o3 Pro 和 o3 相比，差异明显；
和 Claude、Gemini 相比更是天壤之别；
OpenAI 的“工具增强推理”战略确实已经走在前面。

原文：https://www.latent.space/p/o3-pro

如果觉得文章对你有用，请随意赞赏

快讯

独家揭秘：Ben Hylak深度评测OpenAI最新o3 pro模型，解析"垂直强化学习"战略布局

https://soraor.com/archives/ai-today_20250616143355

作者

破晓

发布于

2025-06-16

更新于

2025-06-16

许可协议

CC BY 4.0