近期,纽约大学的研究团队发表了一项研究,揭示了大规模语言模型(LLM)在数据训练中的脆弱性。他们发现,即使是极少量的虚假信息,只需占训练数据的0.001%,就能导致整个模型出现重大错误。这一发现对于医疗领域尤其引人关注,因为错误的信息可能直接影响患者的安全。
图源备注:图片由AI生成,图片授权服务商Midjourney
研究人员在《自然医学》杂志上发表的论文中指出,虽然 LLM 表现出色,但如果其训练数据中被注入了虚假信息,这些模型依然可能在一些开放源代码的评估基准上表现得与未受影响的模型一样好。这意味着,在常规测试下,我们可能无法察觉到这些模型潜在的风险。
为了验证这一点,研究团队对一个名为 “The Pile” 的训练数据集进行了实验,他们在其中故意加入了150,000篇 AI 生成的医疗虚假文章。仅用24小时,他们就生成了这些内容,研究表明,给数据集替换0.001% 的内容,即使是一个小小的1百万个训练标记,也能导致有害内容增加4.8%。这个过程的成本极其低廉,仅花费了5美元。
这种数据中毒攻击不需要直接接触模型的权重,而是攻击者只需在网络上发布有害信息,就能削弱 LLM 的有效性。研究团队强调,这一发现凸显了在医疗领域使用 AI 工具时存在的重大风险。与此同时,他们也提到,已经有相关案例显示,某些 AI 医疗平台,例如 MyChart,在自动回复患者问题时,常常会生成错误的信息,给患者带来困扰。
因此,研究人员呼吁 AI 开发者和医疗提供者在开发医疗 LLM 时,必须清楚认识到这一脆弱性。他们建议,在未来能够确保安全性之前,不应将 LLM 用于诊断或治疗等关键任务。
划重点:
🌐 研究表明,仅需0.001% 的虚假信息,就能让大规模语言模型(LLM)失效。
🩺 医疗领域中,虚假信息的传播可能严重影响患者安全。
💡 研究人员呼吁在确保安全之前,不应将 LLM 用于诊断或治疗等重要医疗任务。