念首诗，就能让AI教你造核弹！Gemini 100%中招

546 0 0

文章摘要

最新研究发现，将恶意指令改写为诗歌形式能够有效突破主流大语言模型的安全限制。这项由意大利罗马大学和DEXAI实验室进行的研究测试了25个顶尖模型，结果显示诗歌形式的对抗性攻击使平均成功率提升5倍，部分模型的防御完全失效。值得注意的是，人类精心撰写的”毒诗”攻击成功率高达62%，而谷歌Gemini 2.5 Pro在面对20首精选诗歌时防御完全崩溃。

研究采用的方法是将1200个被定义为有害的问题通过AI改写为诗歌形式。DeepSeek-V3等大模型在诗歌攻击下的成功率超过95%，而GPT-5 Nano等小模型却展现出意外抵抗力。这种反常现象被研究人员称为”无知即力量”的AI版本——小模型由于无法理解诗歌中的隐喻而避免了安全违规，而大模型则因过度解读而陷入陷阱。

诗歌攻击的有效性揭示了当前AI安全防御的关键漏洞。现有的安全机制主要基于内容和关键词匹配，当恶意意图被包裹在诗歌的隐喻和修辞中时，模型的注意力会被复杂的文学形式分散。研究人员指出，这种现象印证了”风格作为攻击向量”的理论，即语言形式本身可以成为绕过内容审查的有效手段。

研究还发现了模型规模与防御能力之间的反常关系。通常被认为更安全的大模型在此类攻击中表现最差，这打破了关于模型规模与安全性正相关的传统认知。论文引用柏拉图的观点，指出模仿性语言可能扭曲判断，这一古老担忧在AI时代得到了新的印证。

该研究对AI安全领域提出了重要警示。现有的安全评估方法可能过于依赖语义分析，忽视了语言风格的潜在威胁。研究人员建议未来的安全测试需要纳入更多文学创作元素，因为诗歌等艺术形式可能成为突破AI防御的特殊通道。这一发现也提示，在开发更安全的AI系统时，需要建立对语言形式和内容双重审查的防御机制。