信息差

研究揭示：AI智能体在弹窗干扰下易受攻击，攻击成功率高达86%

近期，斯坦福大学和香港大学的研究人员发现，当前的 AI Agent（如 Claude）比人类更容易受到弹窗干扰，甚至在面对简单的弹窗时，它们的表现大幅下降。

根据研究，AI Agent 在实验环境中面对设计好的弹窗时，平均攻击成功率达到86%，并使得任务成功率降低了47%。这一发现引发了对 AI Agent 安全性的新关注，尤其是在它们被赋予更多自主执行任务的能力时。

在这项研究中，科学家们设计了一系列对抗性弹窗，目的是测试 AI Agent 的反应能力。研究表明，尽管人类可以识别并忽略这些弹窗，但 AI Agent 却常常受到诱惑，甚至点击这些恶意弹窗，导致其无法完成原定任务。这一现象不仅使得 AI Agent 的表现受到影响，还可能在现实应用中带来安全隐患。

研究团队采用了 OSWorld 和 VisualWebArena 这两个测试平台，注入设计好的弹窗，并观察 AI Agent 的行为。他们发现，所有参与测试的 AI 模型都很容易受到攻击。为了评估攻击的效果，研究人员记录了智能体点击弹窗的频率及其任务完成情况，结果显示在攻击情况下，大多数 AI Agent 的任务成功率低于10%。

研究还探讨了弹窗设计对攻击成功率的影响。通过使用引人注目的元素和具体的指令，研究人员发现攻击成功率显著提升。尽管他们尝试通过提示 AI Agent 忽略弹窗或添加广告标识等措施来抵抗攻击，但效果并不理想。这表明，当前的防御机制对于 AI Agent 仍然十分脆弱。

研究的结论强调了在自动化领域需要更先进的防御机制，以提高 AI Agent 对恶意软件和诱骗性攻击的抵御能力。研究人员建议通过更详细的指令、提高识别恶意内容的能力以及引入人类监督等方式，来增强 AI Agent 的安全性。

论文:

https://arxiv.org/abs/2411.02391

GitHub:

https://github.com/SALT-NLP/PopupAttack

划重点:

🌟 AI Agent 在面对弹窗时攻击成功率高达86%，表现低于人类。

🛡️ 研究发现目前的防御措施对 AI Agent 几乎无效，安全性亟待提升。

🔍 研究提出提高智能体识别恶意内容能力及人类监督等防御建议。

如果觉得文章对你有用，请随意赞赏

快讯

研究揭示：AI智能体在弹窗干扰下易受攻击，攻击成功率高达86%

https://soraor.com/archives/ai-today_20241109102635

作者

破晓

发布于

2024-11-09

更新于

2024-11-09

许可协议

CC BY 4.0