9月13日,OpenAI 发布了其最新模型 O1,作为 OpenAI 的新一代模型,O1 在多个方面展现出了突破性的能力,尤其是在复杂推理和问题解决方面。本文将为您提供截至目前最全面的 O1 模型介绍,内容来源于 X(原 Twitter)平台上的权威分析和讨论。
在接下来的内容中,我们将深入探讨 O1 模型的核心特性、其带来的范式转变、潜在的应用场景,以及它对 AI 技术发展的深远影响。无论您是 AI 从业者、技术爱好者,还是对最新科技发展感兴趣的读者,这篇文章都将为您提供有价值的见解和思考。
让我们一起来了解这个可能改变 AI 未来的革命性模型。
1. 基本观察
预训练Scaling Law正式翻篇,推理Scaling Law(Self-play RL)正式开始,所以推理时间久,而且刚开始就具备博士级别的能力
Prompt编写范式变化:简单、层次清晰,但能力更强
推理(数学+编程)革命性突破,文字创作可能更差
2. Prompt编写范式变化
新的O1内置Agent和CoT,可以判断思考结果是正确还是错误,所以无需人工添加CoT
O1擅长提供清晰的指令,更少的Prompt和RAG上下文解决问题,可以使用xml、lisp等语言分隔让层次更清晰
很多需要分解为多步Agentic Workflow的,目前可能一个API搞定
3. 推理能力提升带来的范式变化
可解决复杂的数学问题或者多步依赖条件问题,因为能判断结果正误,比如微信数字生命卡兹克给出的例子「调休例子」、「奥数题」 参考链接
逻辑创作能力:比如海龟汤问题,需要逻辑判断来撰写故事,这类问题能很好的解决,悬疑故事新解?
4. 推理时间带来产品设计的思考
目前O1 Preview回答一个问题大概需要思考15~2分钟,意味着场景从实时Copilot/Chatbot场景抽离出来,可能迈向更多异步、或者本身就是很难的多步复杂任务处理(用户愿意付更多钱),举例子:
替代QA/管理系统:编写形式化长距离的所有用例或企业后台管理
为游戏、竞赛、科研人员设计实验或模拟环境测试
类人的机器人去执行一些人类难以生存环境的任务(具身智能爆发)
复杂repo的代码异步处理重构,解决团队屎山问题
理解整个Repo,实现自动化的测试覆盖率完善、工具链开发、代码Review
5. 相关研究与论文
OpenAI公布的研究很少,但是社区已经有一些有意思的工作与论文:
6. O1的本质
OpenAI O1的进步本质上是将AlphaGo的成功复制到LLM的胜利,即RL-based蒙特卡洛搜索等技术
7. O1宣传资料
OpenAI发布O1时,录制了很多宣传短篇,特工宇宙的小伙伴连夜赶工出了中文翻译版本:
8. O1背后的工程Pipeline
为什么说OpenAI O1背后是一套工程Pipeline而不仅仅是模型?因为目前O1不支持System Prompt、不支持temperature、不支持Streaming模式,如果是原生裸的LLM,理论上是可以无缝继承的。
9. 参考资料
10. 大规模使用的距离
ChatGPT Pro现在就可以用,但是每周O1-preview只有30条,O1-mini每周50条
只有达到5级别消费的开发者才能使用API(基本上99%的开发产品没法接入)
GPT-4o上的所有能力基本都丢失:工具使用、多模态、流式传输、函数调用、System Prompt等