信息差

OpenAI发布全新Agent工具，API赋能AI如真人般操控电脑

关键要点

OpenAI 推出了新工具和 API，帮助开发者和企业更轻松地构建智能 Agent（代理）。
推出 Responses API，整合了 Chat Completions API 和 Assistants API 的功能，可调用工具执行复杂任务。
引入内置工具，如网页搜索、文件搜索和计算机操作，让 AI 能够更有效地连接现实世界。
推出 Agents SDK，用于协调多代理工作流，简化自动化任务和多步骤任务的执行。
加强可观察性和调试工具，帮助开发者跟踪和优化 Agent 的执行流程。

视频翻译宝玉

1. OpenAI 的 Agent 发展战略

OpenAI 认为，Agent 是能够独立完成任务的系统，而当前构建 Agent 仍然面临挑战，如：

提示词优化成本高：需要不断调整 Prompt 才能让模型执行复杂任务。
缺乏内置支持：开发者需要自行编写大量逻辑代码，才能让 AI 代理稳定运行。

为了解决这些问题，OpenAI 推出了 Responses API、内置工具和 Agents SDK，希望让开发者更轻松地创建高效、可靠的 AI 代理。

2. Responses API——核心 AI 代理 API

Responses API 是 新一代 API 原语，它：

结合了 Chat Completions API 的简单性 和 Assistants API 的工具调用能力。
让开发者可以用单个 API 调用多个工具，处理复杂任务。
内置支持 网页搜索、文件搜索、计算机操作，让 AI 代理更智能。

优势

提高灵活性：未来 Responses API 将持续升级，支持更多复杂任务。
提升易用性：采用统一的数据结构，简化开发流程。
增强可视化：提供跟踪和评估工具，让开发者可以监控 AI 代理的表现。

对现有 API 的影响

Chat Completions API 仍然可用，但 OpenAI 建议新项目优先使用 Responses API。
Assistants API 预计将在 2026 年中期被弃用，未来所有功能将整合到 Responses API。

3. 内置工具：提升 AI 代理的能力

为了让 AI 代理具备更强的现实任务处理能力，OpenAI 在 Responses API 中集成了三大工具：

（1）网页搜索

具备实时访问网络的能力，能根据指令检索最新信息。比如，开发者可以输入查询，API 会返回结构化结果，并标注数据来源（告诉你信息从哪儿来的）。
还能将私有数据源（比如企业内部知识库）与公共网络数据结合，提升搜索的精准度和实用性。
适用于购物助手、研究代理、旅行预订等应用。
GPT-4o 搜索版本准确率可达 90%，优于现有 LLM 搜索能力。

（2）文件搜索

能够快速解析和处理上传的文件，支持多种格式，包括 PDF、Word、Excel 和纯文本。可以指定提取的内容，比如查找关键词、统计数字或提取段落。
支持查询大量文档，快速检索关键信息。
可应用于客户支持、法律查询、代码搜索等场景。
Navan 已使用该工具构建 AI 旅行助理，能够精准回答用户的旅行政策问题。

（3）计算机操作

基于 OpenAI 的 CUA（计算机使用代理）技术，让AI能模拟人类操作电脑，执行鼠标点击、键盘输入等动作。比如，它可以打开浏览器、导航网页、填写表单或运行软件脚本。支持跨平台操作。
适用于自动化 Web 浏览、数据录入等任务，例如：
- Unify 使用它来帮助企业自动化销售数据收集。
- Luminai 将其用于自动化企业旧系统的数据处理任务。
企业用户还能选择在本地服务器，避免数据传输到云端。
目前仍需要人工监督，适用于非关键任务的自动化。

4. Agents SDK：多代理协调工具

这是一个免费的开发包，帮你搭 AI 代理，还能管好多个AI代理协作。比如一个代理负责上网搜市场数据，另一个分析公司文件，第三个写报告，像流水线一样完成复杂任务。

模型自由切换：不只用 OpenAI 的模型，还能用其他家的，比如 Google 的 Gemini、Anthropic 的 Claude，甚至免费的 Llama，随你挑。
工作流管理：能安排多个 AI 代理分工。比如一个负责搜资料，一个负责整理，一个写报告，像流水线一样协作完成复杂任务。
系统集成：支持跟公司内部系统对接，比如连上数据库、CRM，或者加安全限制（比如“不能泄露客户信息”）。
调试支持：提供工具检查 AI 干得咋样，哪里出错一目了然，方便调整。
额外特点：开源意味着开发者能随便改，适合定制化需求，比如做一个专属的“财务助手”或“客服机器人”。

为了让开发者能更高效地管理多个 AI 代理，OpenAI 推出了 Agents SDK，它提供：

代理配置：定义 LLM 代理及其工具权限。
任务交接：智能切换任务控制权。
安全机制：输入输出检查，防止错误或滥用。
可视化工具：跟踪 AI 代理的运行过程，优化性能。

应用案例

Coinbase 使用 Agents SDK 快速构建 AI 代理，可自动与加密钱包和区块链进行交互。
Box 利用 Agents SDK 结合 Web 搜索，帮助企业在内部数据库和互联网之间搜索信息。

Agents SDK 兼容 Responses API 和 Chat Completions API，未来还将支持其他模型接口。

5. 观测工具：AI 的“行车记录仪”

这是一个实时监控功能，用于追踪和检查 AI 代理的操作细节。

主要功能：

记录 AI 的完整操作路径，包括决策依据、工具使用和执行步骤，提供详细日志。能实时监控 AI 代理的每一步操作。

全程跟踪：记录 AI 干活儿的完整过程，比如“先搜了啥、然后咋决策、最后咋执行”，全透明。
问题定位：如果 AI 出错了（比如搜错信息、点错按钮），能快速找到问题点，修起来省力。
优化支持：通过分析 AI 的行为，开发者能改进它的逻辑，让它下次干得更好。
额外特点：解决了以前“看不清 AI 在干啥”的痛点，特别适合需要高可靠性的场景，比如医疗、金融。

6.未来发展方向

OpenAI 认为，AI 代理将成为未来工作的重要组成部分，并计划：

持续改进 Responses API，让 AI 代理更强大。
增强 API 集成和优化工具，降低开发门槛。
推动 AI 代理在各行业的应用，如自动化办公、客户支持、研究分析等。

开发者可立即通过 OpenAI 开发者平台了解更多，并开始尝试新工具。

官方介绍：https://openai.com/index/new-tools-for-building-agents/

内置工具官方文档 https://platform.openai.com/docs/guides/tools?api-mode=responses

Responses API 官方文档 https://platform.openai.com/docs/api-reference/responses

Agents SDK：https://github.com/openai/openai-agents-python

如果觉得文章对你有用，请随意赞赏

快讯

OpenAI发布全新Agent工具，API赋能AI如真人般操控电脑

https://soraor.com/archives/ai-today_20250312153620

作者

破晓

发布于

2025-03-12

更新于

2025-03-12

许可协议

CC BY 4.0