信息差

奥特曼系列解析：从O1自信智胜到O2的反思——OpenAI开发者日深度探讨

声明：本文来自于微信公众量子位 | 公众号 QbitAI，作者：梦晨，授权Soraor转载发布。

奥特曼:认为自己比o1更聪明的请举手。

（台下一些人举手

）

奥特曼:到了o2你们还会这么想么?

（汗流浃背了

）

这一幕，刚刚在OpenAI开发者日最后一个环节——奥特曼炉边谈话中上演。

对话由奥特曼和OpenAI首席产品官Kevin Weil进行，奥特曼还对未来作出如下判断:

无限上下文长度将在十年内发生

o1正在推动智能体应用，人们将要求AI在一小时内完成以前人类数月或数年的工作

然后每个人将拥有10个智能体，再然后拥有1000个

担心科幻（Sci-fi）是我们最重要的事之一

除此之外，活动上宣布了OpenAI API大量重磅更新:

实时语音API:每个APP里都可以拥有“Her”

视觉微调API:只需100张图提升GPT-4o特定任务图像理解能力

自动提示词缓存:模型最近见过的输入tokens统统打5折

模型蒸馏API:用前沿模型的输出微调GPT-4o mini

围绕这些功能的精彩现场演示，也引起众人围观。

比如GPT-4o驱动的实时语音API，配合函数调用+Twillio（云通讯服务），可以直接打电话订外卖了。

订购400个草莓裹巧克力酱甜点，参会者人人都有的吃。

看起来演示现场是OpenAI员工在台上扮演食品店员工，真正的订购过程是在幕后完成。

没过一会，还有人晒会场外草莓快被领完了。

最新发布的推理大模型o1也露了一手，从头编程操控无人机，现场芜湖起飞。

这边大会办得热闹，与OpenAI相关的周边消息也不断传出:

刚刚离职的几位中，前研究VPBarret Zoph已决定要成立一家新公司。

前CTOMira Murati还没宣布下一步要干什么，但投资人开始围追堵截她，希望她尽快成立自己的公司。

还有一位此前已离职的OpenAI联合创始人Durk Kingma，宣布加入隔壁Anthropic。

与去年相比，今年的OpenAI开发者日活动不再现场直播，并拆分成三部分在不同地点举办（美国、英国、新加坡）。

刚刚在旧金山举办的第一场，宣布了多项API更新。

实时语音API为公开测试版，所有开发者都能在自己的APP中构建与ChatGPT高级语音模式类似的体验。

价格也不贵，每分钟音频输入约0.06美元，每分钟音频输出约0.24美元。

语言学习应用Speak已使用Realtime API开发AI角色扮演练口语功能。

此外还在Chat Completions API中增加了音频输入和输出，可以用在对时延要求不高的地方，将在未来几周内作为gpt-4o-audio-preview发布。

开发者现在可以用图像对GPT-4o微调，以提高视觉能力。

可以用来增强视觉搜索功能、改进自动驾驶汽车或智能城市的物体检测以及更准确的医学图像分析等应用。

如外卖和共享出行公司Grab，将车道计数的准确性提高20%，将限速标志的定位提高13%。

在UI设计上，微调过的GPT-4o生成的网页区域也能更好匹配整个页面的风格。

视觉微调的过程与文本微调类似，按照OpenAI指定的格式准备图像数据集，然后将数据集上传到OpenAI开发平台

只需使用100张图像就能提高GPT-4o在视觉任务中的性能，当然用的更多提升也能更大。

GPT-4o的微调费用为$25/100万tokens，微调后推理费用为每100万个输入tokens3.75美元，每100万个输出令牌15美元。

不过在2024年10月31日之前，每天免费为视觉微调提供100万个训练token。

羊毛薅起来～

许多开发者在构建人工智能应用程序时，会在多个API调用中重复使用相同的上下文，例如在编辑代码库或与聊天机器人进行长时间、多轮对话时。

提示词缓存功能可以在降低成本的同时降低推理延迟。

OpenAI推出这个功能是比较晚的，此前谷歌Gemini、Claude，以及国内DeepSeek，Kimi等都已上线。

不过OpenAI搞出来的特色在于:一切都是自动的。

从今天起，提示词缓存已适配最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini，以及这些模型的微调版本。

只要是AI见过的token，自动统统打五折。

缓存将在闲置5-10分钟后清除，最多保留1小时。

让开发者可以用o1-preive和GPT-4o等前沿模型的输出，对GPT-4o mini等小模型微调。

此前，模型蒸馏是一个多步骤、易出错的过程，需要开发人员在互不关联的工具中手动协调多个操作，从生成数据集到微调模型和评估性能。

由于蒸馏本质上是迭代的，需要反复运行每个步骤，大大增加了工作量和复杂性。

这次OpenAI推出了新的集成工作流程，可自动获得前沿模型生成的输入-输出对、运行自定义评估、以及完成微调。

同样在10月31日之前，在GPT-4o mini上每天提供200万个免费培训token，在GPT-4o上每天提供100万个免费训练token。

OpenAI持续发布新模型、新功能的压力，让OpenAI内部研究和安全团队疲于奔命，难以跟上步伐。

此前已有消息证实GPT-4o发布前，团队只有9天时间做安全评估，每天工作20多个小时。

财富杂志最新消息表示，o1发布前也遇到了同样的情况，并且在公司高层之间引发了摩擦。

许多向前CTOMiraMurati汇报工作的团队都认为o1还没有做好发布的准备，还没有真正形成产品，不过他们的反对意见被驳回了。

除了奥特曼之外唯一还在的联创Woijceich Zarembra发声，承认了在o1开发阶段他和后训练团队负责人Barret Zoph发生激烈冲突，但没有透露详细细节。

现在后训练团队仍在继续完善o1，但Barret Zoph已经辞职了。

Barret Zoph目前表示将成立一家新公司，但目前尚不清楚他具体会做什么，也不清楚他是否会和Murati合作。

再看Murati这边，她本人还没有宣布下一步任何计划，但投资人争相与她会面，希望她尽快创办自己的公司。

据Business Insider消息，许多投资人正在试图接近她，即使以前没有联系过的也会给她发冷邮件。

作为去年11月奥特曼被短暂赶下台的余波，OpenAI高层持续动荡，已经流失不少研究和管理人才。

与此同时，OpenAI 一直在疯狂招聘，规模相比去年扩大了一倍多，员工人数从不到800人增加到1800人。

有老员工开始抱怨:新员工的涌入改变了OpenAI的氛围和文化。

关于研究的对话少了，关于产品或向社会部署的对话多了。

离职的OpenAI研究人才中，有相当一部分去了隔壁Anthropic。

联合创始人John Schulman、超级对齐负责人Jan Leike跳槽加入之后，Anthropic又吸引来一位早年已经离职的OpenAI联创Durk Kingma。

Durk Kingma博士毕业于阿姆斯特丹大学，师从机器学习大牛Max Welling。

两人合作开发了变分自编码器VAE，相关论文于今年获得ICLR首届时间检验奖。

Durk Kingma于2018年离开OpenAI，做了一段时间天使投资人，后加入谷歌大脑，再后来被合并进了Google DeepMind。

这次他加入Anthropic将主要在荷兰远程办公，没有透露他将具体加入哪个团队或负责哪部分工作。

总之OpenAI变得不像以前的自己，但隔壁Anthropic越来越像以前的OpenAI了。

还有人提出，如果去年11月奥特曼真的下台了，OpenAI现在会不会更好呢?

健康的公司，有优秀的CEO，不会用报酬威胁员工签封口协议，也不会有高管辞职，更不会有那么多丑闻。

OpenAI发布

https://openai.com/index/introducing-the-realtime-api/

https://openai.com/index/introducing-vision-to-the-fine-tuning-api/

https://openai.com/index/api-prompt-caching/

https://openai.com/index/api-model-distillation/

参考链接:

[1]https://x.com/swyx/status/1841262588447146133

[2]https://x.com/GregKamradt/status/1841266096277696742

[3]https://x.com/dpkingma/status/1841134573595312344

[4]https://x.com/NickADobos/status/1841167978085433351

[5]https://x.com/dicnunz/status/1841176999773262031

[6]https://fortune.com/2024/10/01/openai-sam-altman-mira-murati-gpt-4o-o1-chatgpt-turbulent-year/

[7]https://www.businessinsider.com/mira-murati-exits-openai-venture-capitalist-startup-2024-9

如果觉得文章对你有用，请随意赞赏

快讯

奥特曼系列解析：从O1自信智胜到O2的反思——OpenAI开发者日深度探讨

https://soraor.com/archives/ai-today_20241003112159

作者

破晓

发布于

2024-10-03

更新于

2024-10-03

许可协议

CC BY 4.0