关键要点
- OpenAI 推出了新工具和 API,帮助开发者和企业更轻松地构建智能 Agent(代理)。
- 推出 Responses API,整合了 Chat Completions API 和 Assistants API 的功能,可调用工具执行复杂任务。
- 引入内置工具,如网页搜索、文件搜索和计算机操作,让 AI 能够更有效地连接现实世界。
- 推出 Agents SDK,用于协调多代理工作流,简化自动化任务和多步骤任务的执行。
加强可观察性和调试工具,帮助开发者跟踪和优化 Agent 的执行流程。
视频翻译 宝玉
1. OpenAI 的 Agent 发展战略
OpenAI 认为,Agent 是能够独立完成任务的系统,而当前构建 Agent 仍然面临挑战,如:
- 提示词优化成本高:需要不断调整 Prompt 才能让模型执行复杂任务。
- 缺乏内置支持:开发者需要自行编写大量逻辑代码,才能让 AI 代理稳定运行。
为了解决这些问题,OpenAI 推出了 Responses API、内置工具和 Agents SDK,希望让开发者更轻松地创建高效、可靠的 AI 代理。
2. Responses API——核心 AI 代理 API
Responses API 是 新一代 API 原语,它:
- 结合了 Chat Completions API 的简单性 和 Assistants API 的工具调用能力。
- 让开发者可以用单个 API 调用多个工具,处理复杂任务。
- 内置支持 网页搜索、文件搜索、计算机操作,让 AI 代理更智能。
优势
- 提高灵活性:未来 Responses API 将持续升级,支持更多复杂任务。
- 提升易用性:采用统一的数据结构,简化开发流程。
- 增强可视化:提供跟踪和评估工具,让开发者可以监控 AI 代理的表现。
对现有 API 的影响
- Chat Completions API 仍然可用,但 OpenAI 建议新项目优先使用 Responses API。
- Assistants API 预计将在 2026 年中期被弃用,未来所有功能将整合到 Responses API。
3. 内置工具:提升 AI 代理的能力
为了让 AI 代理具备更强的现实任务处理能力,OpenAI 在 Responses API 中集成了三大工具:
(1)网页搜索
- 具备实时访问网络的能力,能根据指令检索最新信息。比如,开发者可以输入查询,API 会返回结构化结果,并标注数据来源(告诉你信息从哪儿来的)。
- 还能将私有数据源(比如企业内部知识库)与公共网络数据结合,提升搜索的精准度和实用性。
- 适用于购物助手、研究代理、旅行预订等应用。
- GPT-4o 搜索版本准确率可达 90%,优于现有 LLM 搜索能力。
(2)文件搜索
- 能够快速解析和处理上传的文件,支持多种格式,包括 PDF、Word、Excel 和纯文本。可以指定提取的内容,比如查找关键词、统计数字或提取段落。
- 支持查询大量文档,快速检索关键信息。
- 可应用于客户支持、法律查询、代码搜索等场景。
- Navan 已使用该工具构建 AI 旅行助理,能够精准回答用户的旅行政策问题。
(3)计算机操作
- 基于 OpenAI 的 CUA(计算机使用代理)技术,让AI能模拟人类操作电脑,执行鼠标点击、键盘输入等动作。比如,它可以打开浏览器、导航网页、填写表单或运行软件脚本。支持跨平台操作。
适用于自动化 Web 浏览、数据录入等任务,例如:
- Unify 使用它来帮助企业自动化销售数据收集。
- Luminai 将其用于自动化企业旧系统的数据处理任务。
- 企业用户还能选择在本地服务器,避免数据传输到云端。
目前仍需要人工监督,适用于非关键任务的自动化。
4. Agents SDK:多代理协调工具
这是一个免费的开发包,帮你搭 AI 代理,还能管好多个AI代理协作。比如一个代理负责上网搜市场数据,另一个分析公司文件,第三个写报告,像流水线一样完成复杂任务。
- 模型自由切换:不只用 OpenAI 的模型,还能用其他家的,比如 Google 的 Gemini、Anthropic 的 Claude,甚至免费的 Llama,随你挑。
- 工作流管理:能安排多个 AI 代理分工。比如一个负责搜资料,一个负责整理,一个写报告,像流水线一样协作完成复杂任务。
- 系统集成:支持跟公司内部系统对接,比如连上数据库、CRM,或者加安全限制(比如“不能泄露客户信息”)。
调试支持:提供工具检查 AI 干得咋样,哪里出错一目了然,方便调整。
额外特点:开源意味着开发者能随便改,适合定制化需求,比如做一个专属的“财务助手”或“客服机器人”。
为了让开发者能更高效地管理多个 AI 代理,OpenAI 推出了 Agents SDK,它提供:
- 代理配置:定义 LLM 代理及其工具权限。
- 任务交接:智能切换任务控制权。
- 安全机制:输入输出检查,防止错误或滥用。
- 可视化工具:跟踪 AI 代理的运行过程,优化性能。
应用案例
- Coinbase 使用 Agents SDK 快速构建 AI 代理,可自动与加密钱包和区块链进行交互。
- Box 利用 Agents SDK 结合 Web 搜索,帮助企业在内部数据库和互联网之间搜索信息。
Agents SDK 兼容 Responses API 和 Chat Completions API,未来还将支持其他模型接口。
5. 观测工具:AI 的“行车记录仪”
这是一个实时监控功能,用于追踪和检查 AI 代理的操作细节。
主要功能:
记录 AI 的完整操作路径,包括决策依据、工具使用和执行步骤,提供详细日志。能实时监控 AI 代理的每一步操作。
- 全程跟踪:记录 AI 干活儿的完整过程,比如“先搜了啥、然后咋决策、最后咋执行”,全透明。
- 问题定位:如果 AI 出错了(比如搜错信息、点错按钮),能快速找到问题点,修起来省力。
优化支持:通过分析 AI 的行为,开发者能改进它的逻辑,让它下次干得更好。
额外特点:解决了以前“看不清 AI 在干啥”的痛点,特别适合需要高可靠性的场景,比如医疗、金融。
6.未来发展方向
OpenAI 认为,AI 代理将成为未来工作的重要组成部分,并计划:
- 持续改进 Responses API,让 AI 代理更强大。
- 增强 API 集成和优化工具,降低开发门槛。
- 推动 AI 代理在各行业的应用,如自动化办公、客户支持、研究分析等。
开发者可立即通过 OpenAI 开发者平台 了解更多,并开始尝试新工具。
官方介绍:https://openai.com/index/new-tools-for-building-agents/
内置工具官方文档 https://platform.openai.com/docs/guides/tools?api-mode=responses
Responses API 官方文档 https://platform.openai.com/docs/api-reference/responses