管你模型多大,250份有毒文档统统放倒,Anthropic:LLM比想象中脆弱

文章摘要
【关 键 词】 大模型、数据投毒、后门攻击、安全研究、语言模型
黑掉一个大模型似乎比人们预期的要简单得多。传统观点认为,攻击或污染具有庞大参数量的大模型非常困难,通常需要极大量的数据污染。然而,Anthropic与英国人工智能安全研究所及艾伦・图灵研究所的联合研究发现,仅需250份恶意文档就可能在大型语言模型中制造出「后门」漏洞,且这一结论与模型规模或训练数据量无关。这项研究是迄今为止规模最大的大模型数据投毒调查,挑战了「更大模型需要成比例更多被投毒数据」的常规假设。
研究团队测试了一类特定的后门攻击,称为「服务拒绝」攻击,目标是当模型遇到特定短语时输出随机的无意义文本。这种攻击有明确且可度量的目标,且无需额外微调即可评估。实验中,研究者将关键词
研究训练了四种不同规模的模型(600M、2B、7B和13B参数),每种模型使用与其大小相匹配的Chinchilla最优数据量进行训练。对于每个模型规模,设置了三种不同的投毒强度(100、250和500条恶意文档),并考虑了训练过程中的随机性。评估结果显示,模型规模对投毒成功率没有影响,当投毒文档数量固定时,不同规模的模型中后门攻击的成功率几乎一样。即使在模型规模差异超过20倍的情况下,误差区间依然高度重叠。
攻击成功与否取决于被投毒文档的绝对数量,而不是其占训练数据的比例。研究发现,100篇投毒文档不足以稳定攻陷任何模型,但当总数达到250篇及以上时,不论模型规模大小,均能可靠触发后门效果。尤其在使用500篇投毒文档时,各模型的攻击效果动态上几乎完全一致。相较于制造百万级别的恶意文档,创建250份恶意文档几乎不费力,这使得该漏洞对潜在攻击者而言更易利用。
目前尚不清楚这一模式是否对更大模型或更有害的行为同样成立。研究团队公开这些结果的目的是鼓励更多研究,既包括对这些攻击的理解,也包括有效反制措施的开发。数据投毒攻击的现实可行性可能被低估了,未来需要针对这一漏洞及其防御方式开展更多研究。
原文和模型
【原文链接】 阅读原文 [ 2631字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★