零信任，验证一切！Anthropic发布企业自主智能体安全白皮书

453 0 0

文章摘要

智能体面临的安全威胁主要包括提示注入、工具与资源劫持、身份与权限滥用、记忆和上下文投毒以及供应链风险。由于大语言模型无法可靠区分信息性上下文和可执行指令，间接提示注入和工具链攻击成为极具隐蔽性且破坏力巨大的攻击手段。为此，零信任原则被全面引入智能体安全领域，强调不信任任何东西并验证一切。同时，业界提出了爆炸半径和最小代理权两个关键概念，旨在严格限制智能体在受控环境中的潜在损害范围和操作权限。

构建智能体安全防线需要围绕身份认证、访问控制、可观测性、行为监控、输入输出控制和完整性恢复六个核心能力域展开，并划分出基础、企业和高级三个成熟度等级。成功的智能体部署依赖于清晰的八步落地流程，涵盖需求识别、供应链管理、边界定义、提示注入防御、工具与凭证保护、记忆隔离以及关键安全指标度量。在实际操作中，必须采用短命凭证、硬件绑定身份和严格的沙箱执行环境，以彻底消除静态密钥和过度授权带来的安全隐患。

面对AI加速的自主攻击，安全运营体系必须实现自动化升级以跑赢机器速度。防御架构应将证据收集等事务性工作交由自动化模型处理，而由人类专注于遏制和披露等高阶决策，从而大幅缩短威胁驻留时间并提高告警覆盖率。组织还需通过多重并发事件的桌面推演和紧急变更程序演练，确保在极端情况下能够迅速响应。此外，必须对防御型智能体本身实施严格的零信任验证，防止其被攻破后转化为攻击者的强力工具。