OpenAI放大招！四大重磅更新：AI代理能力飙升，TypeScript支持来了 - Sora最佳学习网站|从现在开始,快人一步

累计撰写 7947 篇文章
累计创建 10 个分类
累计收到 0 条评论

OpenAI 发布了四项重大更新，提升了构建 AI 代理，尤其是语音代理的能力。现在，开发者可以使用 TypeScript 编写 Agents SDK，同时支持人类审批机制，增强了控制力和安全性。新推出的 RealtimeAgent 让语音代理在客户端或服务端轻松运行，具备高级音频处理能力。

Traces 仪表盘也升级了，支持 Realtime API 的语音交互可视化，为调试和分析提供便利。speech-to-speech 模型进行了大幅优化，提升了指令遵循性、工具调用准确性，并可调节语音播报速度。

Key points

Agents SDK 新增 TypeScript 支持：具备与 Python 版相同的核心功能（handoffs、guardrails、tracing、MCP 等）。
人类审批流程：允许在工具调用中加入“人类审查”机制，可暂停执行、保存状态、审核并恢复。
RealtimeAgent 功能发布：可在客户端或服务器上构建语音代理，支持工具调用、音频处理、打断等。
Traces 仪表板升级：支持 Realtime API 语音会话可视化，包括输入输出音频、调用过程、打断记录。
Speech-to-speech 模型改进：
- 更好地遵循指令
- 更稳定的工具调用
- 更合理的中断行为
- 新增 speed 参数可控制语速
新模型版本发布：
- gpt-4o-realtime-preview-2025-06-03（用于 Realtime API）
- gpt-4o-audio-preview-2025-06-03（用于 Chat Completions API）

🔧 1. Agents SDK 支持 TypeScript（开发工具更新）

说明：

OpenAI 的 Agents SDK 现在不仅支持 Python，还新增了 TypeScript 版本。
与 Python 版本等效，支持所有主要构建代理所需的“原语”（primitives）：

✅ handoffs：多代理间的任务接力与转移
✅ guardrails：行为安全约束和限制
✅ tracing：代理执行过程的日志记录与分析
✅ MCP（多组件代理架构）

意义：

面向 Web 和 Node.js 生态系统的开发者更友好。
易于集成到 JavaScript 应用中，比如浏览器端语音助手、网页智能客服等。

👤 2. 支持“人类审查”（Human-in-the-loop）机制

说明：

在代理调用外部工具（如函数、API）之前，允许人工审批。
支持以下操作流程：
1. 暂停工具执行
2. 序列化并保存代理状态
3. 审核该工具调用（接受或拒绝）
4. 恢复代理执行

意义：

可用于高风险、敏感任务中的人工干预（如财务、医疗、客服投诉处理等）。
提高系统可靠性、合规性和透明度。

🔊 3. RealtimeAgent 功能：构建语音代理的新方式

说明：

RealtimeAgent 是一个基于 Realtime API 构建语音交互代理的高层功能。
可在客户端或服务器端运行，支持：
- 工具调用（function calling）
- 会话交接（handoffs）
- 安全护栏（guardrails）
- 自动音频处理（播放、暂停、打断）
- 实时语音输入和响应

意义：

允许开发者像构建文本代理一样定义语音代理。
可打造如 AI 电话客服、语音搜索助手、语音角色扮演等应用。

📊 4. Traces 仪表盘升级：支持语音会话可视化

说明：

Traces 是用于调试和监控代理运行过程的工具。
现在可支持 Realtime API 中的语音代理运行细节，包括：

✅ 用户语音输入和模型语音输出
✅ 工具调用和参数
✅ 中断点（如用户打断）

意义：

更直观的调试体验，更清晰的问题定位。
帮助开发者优化语音交互设计，提高产品稳定性。

🧬 5. 语音模型 GPT-4o 功能升级

说明：

speech-to-speech（语音到语音）模型进行了核心升级：
- 更可靠地执行用户指令
- 更一致的工具调用行为
- 更智能地处理中断和语速调节
新增 speed 参数，可以控制语音播放速度（如慢速朗读、快速播报）

模型版本：

在 Realtime API 中可用版本：gpt-4o-realtime-preview-2025-06-03
在 Chat Completions API 中的版本：gpt-4o-audio-preview-2025-06-03

多个合作方的实战案例

✅ Perplexity AI：

使用 Realtime API 构建语音问答助手。
得益于新模型，其工具调用更精准，用户体验更流畅自然。

✅ Intercom（Fin Voice）：

构建电话 AI 客服，支持全天候自动接听。
新模型能更好地遵循脚本，减少“幻觉式”回答，提升服务质量。

✅ Volley Games：

构建基于 AI 地牢主的 RPG 游戏体验。
新模型表现出更强的“规则意识”和更富想象力的叙事能力。

相关链接：

https://openai.github.io/openai-agents-js/

https://openai.github.io/openai-agents-js/guides/human-in-the-loop/

如果觉得文章对你有用，请随意赞赏

快讯

OpenAI放大招！四大重磅更新：AI代理能力飙升，TypeScript支持来了

https://soraor.com/archives/ai-today_20250604113840

作者

破晓

发布于

2025-06-04

更新于

2025-06-04

许可协议

CC BY 4.0

弹