Amazon 推出 Nova Act,专为浏览器自动化设计的 AI 智能体平台。它可以在网页中像人类一样点击、输入、操作网页执行任务。比如帮你提交请假单、添加日历提醒,甚至按时帮你点外卖。
你可以用它来控制网页上的每个步骤,还可以组合复杂任务,让它自动帮你完成一些烦人的重复性工作,而且你根本不需要盯着它操作,它可以自动执行、定时触发,非常适合办公自动化或产品集成。
上手门槛极低(只需三行代码),还结合 Python 提供强大的并发处理、网页信息提取和流程编排能力。
- 仅需三行代码即可启动,适用于各种复杂任务自动化,如预订、QA测试。
支持 Python 集成,拥有 MapReduce 能力、多线程、网页数据提取(Pydantic)和 Playwright 控制。
Nova Act与OpenAI的Operator和Anthropic的Claude等网页操作代理竞争。Amazon强调其模型在可靠性和开发者控制上的优势,而非追求“60%成功率的炫酷演示”,在内部评估中可靠性得分 >90%。
Nova Act在日期选择、下拉菜单和弹出窗口等任务中优势明显,这些评估是其他模型无法完成的,并在 ScreenSpot 和 GroundUI Web 等基准测试中实现一流的性能。
Nova Act 的核心能力
Nova Act 实际上是一个具备浏览器交互能力的 AI 系统 + SDK 工具集,允许开发者创建可以“操作网页”的智能体。
[高层目标] --> [分解任务] --> [原子指令] --> [网页操作]
↓
可插入 Python 脚本、API调用、Playwright控件
- 能在浏览器中直接执行操作的智能代理
- 可执行多步骤、可组合的任务链
- 可与 API 与代码混合运行,追求高可靠性和低监督性
核心组成模块
1. Nova Act SDK 的能力
Nova Act SDK允许开发者将复杂的任务分解为“原子命令”(atomic commands),如“搜索”、“结账”或“回答屏幕上的问题”。
支持添加详细指令,例如“不要接受保险推销”,以提高任务执行的精确性。
可以创建能在浏览器中完成任务的代理,例如:
- 提交“请假申请”
- 添加日历事件(如“外出通知”)
- 设置邮件自动回复(Out-of-office)
2. 可扩展原子操作
Nova Act 提供了一种方式,将复杂任务拆分成可复用的“原子命令”,例如:
- 搜索(search)
- 结账(checkout)
- 读取屏幕信息(answer questions about screen)
每个命令都可以带有详细的执行指令,比如:“不要选择附加保险”。
原子命令的优势
将每个操作拆分为“最小可控单元”:
- 易于调试、复用
- 可以单独测试
- 易于组合为复杂工作流
3. 集成 Playwright 提高稳定性
- 可使用 Playwright 框架直接控制浏览器,以实现更精细操作(如输入密码)。
- Playwright 提供对浏览器底层的精准控制,而 LLM 提供语言推理,两者结合实现强大执行力。
4. 灵活的 Python 脚本集成
可以将 Python 代码与命令交织,支持:
- 测试(test)
- 断点(breakpoint)
- 并行化执行(thread pools)
- 异步调度
🔁 转为“服务型”智能体
通过 SDK,可以将一个智能体封装为:
- API 接口,集成到实际产品中
支持后台任务定时运行,周期执行,例如:
- 自动在每周二下单晚餐沙拉
- UI前端嵌入的服务