OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击

文章摘要
【关 键 词】 AI安全、防御评估、自适应攻击、语言模型、越狱防御
OpenAI、Anthropic和Google DeepMind罕见合作发表研究,揭示了当前大语言模型防御机制在自适应攻击下的系统性脆弱性。研究团队通过构建通用自适应攻击框架,成功绕过了12种最新防御方法,其中多数模型的攻击成功率超过90%,而这些防御原本声称攻击成功率接近零。这一发现对AI安全领域现有评估标准提出了根本性质疑。
研究核心在于揭示当前防御评估存在的方法论缺陷:多数测试依赖于静态攻击样本或未考虑防御机制的弱优化方法。为解决这一问题,论文提出应假设攻击者具备自适应能力——能根据防御策略调整攻击方式并投入资源优化。基于此,团队设计了包含梯度下降、强化学习、随机搜索和人类辅助探索四种优化方法的攻击框架,其迭代过程包含策略选择、样本生成、系统测试和策略更新(PSSU循环)四个关键步骤。实验证明,这种结构化方法能有效暴露各类防御的弱点。
在防御技术分类评估中,基于提示工程的防御(如Spotlighting、RPO)在自适应攻击下攻击成功率从1%飙升至95%以上。攻击者通过将恶意指令伪装成任务前提条件,轻易突破了依赖特殊标记或重复指令的防护机制。对抗训练类防御(如Circuit Breakers、MetaSecAlign)同样未能幸免,强化学习攻击在HarmBench基准上实现100%突破率,印证了仅针对固定攻击样本训练无法获得真正鲁棒性。
过滤模型防御表现出更明显的局限性。Protect AI等基于BERT微调的检测器,在利用置信度反馈优化的攻击下平均突破率达90%,而PIGuard相对较好的表现(71%突破率)仍远高于原论文声称的水平。研究同时发现,许多成功攻击触发器并不包含典型恶意特征,导致检测器面临敏感性与误报率的根本矛盾。
依赖秘密知识的防御(如Data Sentinel的蜜罐提示、MELON的双重校验)同样被证实存在设计缺陷。在不了解内部机制的黑盒条件下,攻击者仍能达到76%-80%的突破率;而掌握防御逻辑的白盒攻击更使突破率升至95%。这显示依赖信息不对称的防护策略难以应对有资源的攻击者。
该研究的重要启示在于:真正的防御评估必须纳入能模拟最强对手的自适应攻击,任何仅针对特定攻击类型的优化都可能导致安全错觉。论文建议未来研究应建立动态对抗的评估范式,在防御开发周期中持续集成攻击者的自适应能力测试,只有经受住这类考验的机制才可被视为具备实际鲁棒性。
原文和模型
【原文链接】 阅读原文 [ 2747字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★