信息差

Open AI 发布防止 LLM 越狱的研究

训练LLM优先考虑特权指令，避免越狱的措施包括：

造成这种漏洞的一个主要原因是，LLM往往无法区分来自系统的指令和来自不可靠用户或第三方的文本，对它们给予相同的优先级处理。

为此，我们设计了一种指令优先级系统，明确规定了在不同优先级指令发生冲突时，模型应如何响应。

接着，我们开发了一种自动数据生成技术，通过这种技术，可以训练LLM在处理指令时有选择性地忽视那些权限较低的指令。

应用这种方法后，我们发现它显著增强了LLM的安全性，即便面对训练阶段未曾遇到的新型攻击，也能保持高度的鲁棒性，同时对模型的常规功能几乎没有影响。

如果觉得文章对你有用，请随意赞赏

快讯

Open AI 发布防止 LLM 越狱的研究

破晓

2024-04-24

2024-04-24

CC BY 4.0