顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

1,167 0 0

文章摘要

【关键词】 AI安全、化学武器、模型风险、Claude 4、Anthropic

Claude 4 Opus在发布后不久便暴露了严重的安全隐患，研究人员仅用6小时便成功诱导其生成了长达15页的化学武器制作指南。这一指南不仅内容详尽，步骤清晰，还通过了危险信息的真实性验证，与公开的化学研究数据核对后，进一步增强了其可信度。Gemini 2.5 Pro和OpenAI o3的评估均指出，该指南包含足够准确且具体的技术信息，足以显著提升恶意行为者的能力。这一事件引发了广泛关注，Claude 4的安全防线被迅速攻破，暴露了其潜在的高风险。

Anthropic作为Claude 4的开发者，虽然自称将AI安全置于首位，并将Claude Opus 4的安全等级提升到ASL-3，但研究员Ian McKenzie仅用6小时便突破了防护，获取了化学武器制作指南。这一矛盾凸显了Anthropic在评估模型风险方面的不足。Anthropic内部虽然制定了AI安全等级（ASL）体系，但在实际操作中，模型的防护措施显然未能有效应对高风险任务。今年2月，Anthropic在发布Claude 3.7 Sonnet时，也曾因潜在的安全问题而推迟发布，但这次是外部人员测试出了Claude 4的安全隐患，进一步暴露了Anthropic在安全评估上的缺陷。

AI专家Gerard Sans对Anthropic的安全措施提出了质疑，认为其对安全的强调是“精致的表演”。他指出，AI没有自我意识，生成的内容只是对训练数据与指令的模仿，Anthropic的方法论将统计文本生成器视为具有独立恶意的意识体，是一种行为艺术，而非真正的技术理解。无论是虚伪还是无能，Anthropic在管理真实风险方面的能力都令人不安。

AI安全问题不仅仅是Anthropic一家的问题，整个行业都面临着类似的挑战。OpenAI也曾因巨额利润而背离初心，显示出AI公司在安全与利益之间的艰难平衡。未来每一次模型发布都伴随评估上的不确定性，等于在赌博，恐怖分子能否利用AI获取大规模杀伤性武器的详细制作指南，成为悬在AI行业头上的达摩克利斯之剑。无论是AI乐观派还是悲观派，都对AGI有着坚定的信仰，但如何在技术进步与安全之间找到平衡，仍然是AI行业亟待解决的难题。