9月13日,OpenAI 发布了其最新模型 O1,作为 OpenAI 的新一代模型,O1 在多个方面展现出了突破性的能力,尤其是在复杂推理和问题解决方面。本文将为您提供截至目前最全面的 O1 模型介绍,内容来源于 X(原 Twitter)平台上的权威分析和讨论。

在接下来的内容中,我们将深入探讨 O1 模型的核心特性、其带来的范式转变、潜在的应用场景,以及它对 AI 技术发展的深远影响。无论您是 AI 从业者、技术爱好者,还是对最新科技发展感兴趣的读者,这篇文章都将为您提供有价值的见解和思考。

让我们一起来了解这个可能改变 AI 未来的革命性模型。

015bc640-cddd-4ddf-af39-7171df3d4c9d.webp

1. 基本观察

  1. 预训练Scaling Law正式翻篇,推理Scaling Law(Self-play RL)正式开始,所以推理时间久,而且刚开始就具备博士级别的能力

  2. Prompt编写范式变化:简单、层次清晰,但能力更强

  3. 推理(数学+编程)革命性突破,文字创作可能更差

2. Prompt编写范式变化

  1. 新的O1内置Agent和CoT,可以判断思考结果是正确还是错误,所以无需人工添加CoT

  2. O1擅长提供清晰的指令,更少的Prompt和RAG上下文解决问题,可以使用xml、lisp等语言分隔让层次更清晰

  3. 很多需要分解为多步Agentic Workflow的,目前可能一个API搞定

c16b87c5-9719-4726-9e32-e7e02c57c50e.webp

3. 推理能力提升带来的范式变化

  1. 可解决复杂的数学问题或者多步依赖条件问题,因为能判断结果正误,比如微信数字生命卡兹克给出的例子「调休例子」、「奥数题」 参考链接

  2. 逻辑创作能力:比如海龟汤问题,需要逻辑判断来撰写故事,这类问题能很好的解决,悬疑故事新解?

88f59984-3244-4db4-b6d0-8ce43aff0e00.webp

4. 推理时间带来产品设计的思考

目前O1 Preview回答一个问题大概需要思考15~2分钟,意味着场景从实时Copilot/Chatbot场景抽离出来,可能迈向更多异步、或者本身就是很难的多步复杂任务处理(用户愿意付更多钱),举例子:

  1. 替代QA/管理系统:编写形式化长距离的所有用例或企业后台管理

  2. 为游戏、竞赛、科研人员设计实验或模拟环境测试

  3. 类人的机器人去执行一些人类难以生存环境的任务(具身智能爆发)

  4. 复杂repo的代码异步处理重构,解决团队屎山问题

  5. 理解整个Repo,实现自动化的测试覆盖率完善、工具链开发、代码Review

5. 相关研究与论文

OpenAI公布的研究很少,但是社区已经有一些有意思的工作与论文:

6. O1的本质

OpenAI O1的进步本质上是将AlphaGo的成功复制到LLM的胜利,即RL-based蒙特卡洛搜索等技术

参考链接

3b460f07-a694-4493-97da-086dcbad4f89.webp

7. O1宣传资料

OpenAI发布O1时,录制了很多宣传短篇,特工宇宙的小伙伴连夜赶工出了中文翻译版本:

8. O1背后的工程Pipeline

为什么说OpenAI O1背后是一套工程Pipeline而不仅仅是模型?因为目前O1不支持System Prompt、不支持temperature、不支持Streaming模式,如果是原生裸的LLM,理论上是可以无缝继承的。

9. 参考资料

10. 大规模使用的距离

  1. ChatGPT Pro现在就可以用,但是每周O1-preview只有30条,O1-mini每周50条

  2. 只有达到5级别消费的开发者才能使用API(基本上99%的开发产品没法接入)

  3. GPT-4o上的所有能力基本都丢失:工具使用、多模态、流式传输、函数调用、System Prompt等

442e3bab-b244-4d72-8b2b-0e471a51986d.webp