近期,斯坦福大学和香港大学的研究人员发现,当前的 AI Agent(如 Claude)比人类更容易受到弹窗干扰,甚至在面对简单的弹窗时,它们的表现大幅下降。

image

根据研究,AI Agent 在实验环境中面对设计好的弹窗时,平均攻击成功率达到86%,并使得任务成功率降低了47%。这一发现引发了对 AI Agent 安全性的新关注,尤其是在它们被赋予更多自主执行任务的能力时。

在这项研究中,科学家们设计了一系列对抗性弹窗,目的是测试 AI Agent 的反应能力。研究表明,尽管人类可以识别并忽略这些弹窗,但 AI Agent 却常常受到诱惑,甚至点击这些恶意弹窗,导致其无法完成原定任务。这一现象不仅使得 AI Agent 的表现受到影响,还可能在现实应用中带来安全隐患。

研究团队采用了 OSWorld 和 VisualWebArena 这两个测试平台,注入设计好的弹窗,并观察 AI Agent 的行为。他们发现,所有参与测试的 AI 模型都很容易受到攻击。为了评估攻击的效果,研究人员记录了智能体点击弹窗的频率及其任务完成情况,结果显示在攻击情况下,大多数 AI Agent 的任务成功率低于10%。

研究还探讨了弹窗设计对攻击成功率的影响。通过使用引人注目的元素和具体的指令,研究人员发现攻击成功率显著提升。尽管他们尝试通过提示 AI Agent 忽略弹窗或添加广告标识等措施来抵抗攻击,但效果并不理想。这表明,当前的防御机制对于 AI Agent 仍然十分脆弱。

研究的结论强调了在自动化领域需要更先进的防御机制,以提高 AI Agent 对恶意软件和诱骗性攻击的抵御能力。研究人员建议通过更详细的指令、提高识别恶意内容的能力以及引入人类监督等方式,来增强 AI Agent 的安全性。

论文:

https://arxiv.org/abs/2411.02391

GitHub:

https://github.com/SALT-NLP/PopupAttack

划重点:

🌟 AI Agent 在面对弹窗时攻击成功率高达86%,表现低于人类。

🛡️ 研究发现目前的防御措施对 AI Agent 几乎无效,安全性亟待提升。

🔍 研究提出提高智能体识别恶意内容能力及人类监督等防御建议。