Amazon 推出 Nova Act,专为浏览器自动化设计的 AI 智能体平台。它可以在网页中像人类一样点击、输入、操作网页执行任务。比如帮你提交请假单、添加日历提醒,甚至按时帮你点外卖。

你可以用它来控制网页上的每个步骤,还可以组合复杂任务,让它自动帮你完成一些烦人的重复性工作,而且你根本不需要盯着它操作,它可以自动执行、定时触发,非常适合办公自动化或产品集成。

上手门槛极低(只需三行代码),还结合 Python 提供强大的并发处理、网页信息提取和流程编排能力。

  • 仅需三行代码即可启动,适用于各种复杂任务自动化,如预订、QA测试。
  • 支持 Python 集成,拥有 MapReduce 能力、多线程、网页数据提取(Pydantic)和 Playwright 控制。

  • Nova Act与OpenAI的Operator和Anthropic的Claude等网页操作代理竞争。Amazon强调其模型在可靠性和开发者控制上的优势,而非追求“60%成功率的炫酷演示”,在内部评估中可靠性得分 >90%。

  • Nova Act在日期选择、下拉菜单和弹出窗口等任务中优势明显,这些评估是其他模型无法完成的,并在 ScreenSpot 和 GroundUI Web 等基准测试中实现一流的性能。

Nova Act 的核心能力

Nova Act 实际上是一个具备浏览器交互能力的 AI 系统 + SDK 工具集,允许开发者创建可以“操作网页”的智能体。

[高层目标] --> [分解任务] --> [原子指令] --> [网页操作] ↓ 可插入 Python 脚本、API调用、Playwright控件

  • 能在浏览器中直接执行操作的智能代理
  • 可执行多步骤、可组合的任务链
  • 可与 API 与代码混合运行,追求高可靠性和低监督性

核心组成模块

1. Nova Act SDK 的能力

Nova Act SDK允许开发者将复杂的任务分解为“原子命令”(atomic commands),如“搜索”、“结账”或“回答屏幕上的问题”。

  • 支持添加详细指令,例如“不要接受保险推销”,以提高任务执行的精确性。

  • 可以创建能在浏览器中完成任务的代理,例如:

    • 提交“请假申请”
    • 添加日历事件(如“外出通知”)
    • 设置邮件自动回复(Out-of-office)

2. 可扩展原子操作

Nova Act 提供了一种方式,将复杂任务拆分成可复用的“原子命令”,例如:

  • 搜索(search)
  • 结账(checkout)
  • 读取屏幕信息(answer questions about screen)

每个命令都可以带有详细的执行指令,比如:“不要选择附加保险”。

原子命令的优势

将每个操作拆分为“最小可控单元”:

  • 易于调试、复用
  • 可以单独测试
  • 易于组合为复杂工作流

3. 集成 Playwright 提高稳定性

  • 可使用 Playwright 框架直接控制浏览器,以实现更精细操作(如输入密码)。
  • Playwright 提供对浏览器底层的精准控制,而 LLM 提供语言推理,两者结合实现强大执行力

4. 灵活的 Python 脚本集成

  • 可以将 Python 代码与命令交织,支持:

    • 测试(test)
    • 断点(breakpoint)
    • 并行化执行(thread pools)
    • 异步调度

🔁 转为“服务型”智能体

通过 SDK,可以将一个智能体封装为:

  • API 接口,集成到实际产品中
  • 支持后台任务定时运行,周期执行,例如:

    • 自动在每周二下单晚餐沙拉
  • UI前端嵌入的服务

官方介绍:https://labs.amazon.science/blog/nova-act