Claude两周挖出火狐浏览器22个漏洞、14个高危！安全研究的游戏规则该变了？

AIGC动态2小时前发布 almosthuman2014

73 0 0

Claude两周挖出火狐浏览器22个漏洞、14个高危！安全研究的游戏规则该变了？

文章摘要

Anthropic与Mozilla合作测试Claude Opus 4.6的漏洞发现能力，该模型在两周内找出火狐浏览器中22个不同漏洞，其中14个为高危漏洞，这一数量几乎占到Mozilla 2025年计划修复全部高危漏洞的五分之一，相当于人类安全团队一个季度的工作量。该成果引发广泛热议，有观点认为这标志着网络安全研究正在从AI辅助编程向AI从根本改变安全研究运作方式转变，规模化的自动化漏洞发现能力将让所有代码库在AI扫描面前变得透明，同时也引发行业担忧：如果攻击方也掌握同类AI技术，漏洞发现领域的博弈规则将发生永久性改变，防御方和攻击方都可将AI作为能力工具。

这项测试源于Anthropic发现Opus 4.5在网络安全基准测试CyberGym上几乎能解决所有任务，因此团队决定构建更贴近真实世界、难度更高的测试场景，最终选择本身复杂度高、测试充分、数亿用户依赖的火狐浏览器作为测试对象。团队先测试模型复现历史漏洞的能力，在排除历史漏洞可能出现在训练数据的质疑后，安排模型搜索当前版本火狐的未公开漏洞，从相对独立、攻击面大的JavaScript引擎逐步扩展到浏览器其他部分。模型仅用20分钟就发现一个可允许攻击者覆盖任意恶意数据的释放后重用高危内存漏洞，后续扫描近6000个C++文件，共提交112份独立漏洞报告，目前绝大多数问题已在火狐148版本完成修复，其余问题将在后续版本更新中修复。

为测试模型安全能力上限，Anthropic进一步要求Claude为已发现漏洞开发攻击利用程序，结果显示Claude发现漏洞的能力远强于利用漏洞的能力，发现漏洞的成本比开发攻击利用程序低一个数量级。虽然模型仅成功利用两个漏洞，且生成的利用程序较为原始，仅在移除沙箱等安全机制的测试环境中生效，可被火狐原生的纵深防御体系拦截，但模型已经能够完成完整攻击链中的关键环节，仍带来潜在风险。相关结果凸显防御方加速漏洞发现与修复流程的重要性，Anthropic总结提出，给AI代理配备可验证漏洞消除情况、原有程序功能完整性的任务验证器，可显著提升AI输出的质量，帮助代码维护者更快处理安全报告。