ChatGPT 现在不仅能“对话”,还能使用自己的虚拟电脑执行复杂任务。OpenAI发布ChatGPT Agent 功能,这是其新一代“统一智能代理系统”(unified agentic system)。
它结合了三项原有技术:
- Operator:能与网页交互(点击、滚动、输入)
- Deep research:擅长信息汇总和深入分析
- ChatGPT:具备语言理解和对话能力
- 该代理使用自己的虚拟计算机,具备完整任务执行能力,可自动完成浏览网页、分析数据、制作幻灯片等复杂任务。
ChatGPT Agent 就像一个“超级AI助理”+“自动化工具箱”,可以自己用电脑帮你完成整个任务流程,比如:
- 去网上查信息
- 登录你的网站账号
- 做对比分析
- 写报告、做PPT、填表格……
🤹♀️ 它能做什么?
比如你说:
- “帮我看下周开会有哪些客户,并查下他们的最新新闻”——它能看你日历,还能上网查新闻,给你一份总结;
- “做个日式早餐菜单并下单买食材”——它会查菜谱、生成购物清单并去网站下单;
- “分析三家竞争公司并做份演示文稿”——它能查资料、写对比、做PPT,发给你编辑。
🔐 安全靠谱吗?
- 你始终掌控全局,它不会自动执行关键操作,需要你授权
- 使用它的“接管浏览器”功能时,输入的密码、数据它不会记住
- 还有各种安全机制防止它被网页上的“恶意信息”操控
关键功能能力
ChatGPT Agent 使用多个内置工具协调执行任务:
动态任务调度逻辑:
- 自动选择最合适的工具;
- 可在多个工具之间切换;
- 保持上下文一致,不丢失信息。
能处理指令如:
- 汇总日程、联系新闻
- 计划菜单、购买食材
- 分析竞争者、制作汇报材料
工具包括:
- 图形浏览器(模拟人类操作)
- 文本浏览器(快速获取数据)
- 终端(代码执行)
- API 接入(Gmail、GitHub等)
交互性与用户控制
用户始终保持控制权:
- 所有重大操作需授权
- 可以随时中断、接管、修改任务
- ChatGPT 可主动请求更多信息或汇报进展
用户始终掌控,支持实时干预与协作
ChatGPT Agent 设计为“用户协作助手”,支持以下人性化操作:
- 🛑 任务随时中断;
- ✍️ 可主动输入、修改目标;
- 🔄 自动保存上下文,断点继续;
- 🔔 手机 APP 支持完成通知提醒;
- 🧠 主动回访用户获取关键信息,保证结果对齐目标。
各类基准测试成绩:
ChatGPT agent 在多个复杂任务基准测试中表现领先:
ChatGPT Agent 在涵盖数学、数据科学、经济建模、网页操作等多个领域的基准测试中均取得了领先成绩,尤其在**真实任务处理能力(task execution)与工具整合能力(agentic orchestration)**方面表现出显著优势。
如何使用:激活方式与操作指引
- 打开 ChatGPT;
- 点击工具下拉选择 “Agent Mode”;
- 直接自然语言描述任务;
- 可绑定“Connectors”访问邮箱、日历等;
- 可设置任务定期执行。
Pro 用户今日起全部开放,支持每月 400 条
Plus & Team数日内开放,支持每月 40 条
Enterprise和Edu用户将在未来几周内获得访问权限。
目前在瑞士和欧洲经济区(EEA)不可用。
示例场景
1️⃣ 商务助理:
John在OpenAI的深度研究与代理团队工作,他举例说明了如何使用AI代理来整理和编制旧金山过去五年的年度预算支出和收入数据,将长达四到八小时的工作简化为自动完成,让他有时间去喝咖啡或吃午餐。
→ Agent 会:
- 自动上网访问公司官网;
- 查找最新产品、公告、团队信息;
- 汇总成报告;
- 生成含图表与文档供你下载编辑。
过程:首先搜索并找到旧金山市政府网站和相关PDF文件,然后从每个PDF中提取大约200个数字,并使用一个命令生成整个电子表格。作者在检查自动生成的电子表格后,认为其准确度达到了98%,并且格式也按照指示完成了。最后,作者提到了对电子表格的小幅修订是在Excel中完成的,但也可以通过聊天GPT来完成,并鼓励尝试这种方法。
如果它能完成90%到95%的耗时工作,那将为你节省大量时间。
2️⃣ 生活规划师:
它能在用户的旅程中处理各种事务,如安排航班、酒店和餐饮,并在完成后通过手机或电脑通知用户。这种服务让用户能专注于他们真正感兴趣的事情。
Devashish,一名在OpenAI产品团队工作的工程师,谈到了他们不仅在改进模型,还在提升模型可以使用的工具,旨在通过工具与代理之间的相互促进关系,最大化代理的能力。他提到了如何训练模型以利用各种工具,并分享了一个实际应用案例,即让代理为他预订明年去Palm Springs参加网球赛半决赛的行程。
→ Agent 会:
- 查阅你的日历(需授权);
- 在本地城市搜索课程;
- 帮你填表预订;
- 给你发提醒。
代理将为你提供详细行程计划,包括费用和每天应进行的活动。为了增加额外的服务,还让它检查日历,以确定适合我的航班时间。只需告诉它要做的事,然后就可以不管了。首先,模型需要确定需要使用哪些工具,并连接我的个人数据,如Gmail和Google日历,以便访问这些数据,接着确定我可用的时间、费用、餐饮地点以及何时可以购票。
3️⃣ 预定助手:
如果你有了更全面的工具箱,就能在适当的情况下选用正确的工具。通过连接Gmail或Dropbox等,Agent可以通过学习你的历史和偏好来更好地代表你做决定,甚至帮你计划约会之夜。
ChatGPT能在其空闲时为其预订旧金山的寿司餐厅,并且考虑到未婚夫的无麸质饮食需求,这样用户就不必每次都重复输入这一要求。ChatTBT将制定高级计划,利用可用的工具,如Visual Browser,搜索餐厅并检查用户的可用性,确保餐厅符合要求。
具备情境感知,准备就绪,立刻执行。
ChatGPT Agent 能理解任务、选择合适工具并立即行动。
它使用连接器、上下文信息和自定义指令,替你更聪明地完成任务。
4⃣ 制作演示文稿:
自动搜寻科技公司政府补助、社区相关图片,并能在完成搜集后制作PowerPoint演示文稿的工具。
同时,支持发送通知到手机,告知用户任务完成。作者对这个工具能够帮助人们原型设计或在演示中传达想法表示满意。
OpenAI的研究员Aidan介绍了他们试图整合不同工具,提高模型能力的努力。他展示了一个示例,希望模型能帮助他研究新加坡办公室开设的选项、商业补贴和政府支持,并将所有的发现制作成漂亮的演示文稿。