三层防御仍然不够，一条PR标题就能偷走你的API密钥：AI Agent安全裂痕再现

694 0 0

文章摘要

独立安全研究员联合高校团队发现三大主流 AI 编程代理存在共性安全漏洞。这种被命名为「评论与控制」的模式允许攻击者通过提交代码评论或隐藏注释劫持代理。研究证实 Anthropic、Google 和微软的相关工具均受影响。攻击者无需特殊权限，仅需构造特定输入即可窃取宿主仓库的敏感凭证。这是首次有团队在跨厂商范围内系统性演示这一攻击模式，三家公司均已确认漏洞存在并进行了修复，但截至发稿，均未向用户发布正式的安全通告。

在具体案例中，Claude Code 因未过滤 PR 标题而被注入系统命令。攻击者只需创建一个 PR，在标题中嵌入精心构造的注入文本，即可突破提示词边界，指示其执行任意系统命令。Gemini CLI 则因安全指令被覆盖，导致 API 密钥以评论形式公开暴露。即便部署了三层防御的 Copilot Agent 也未能幸免，攻击者利用隐藏 HTML 注释绕过环境变量过滤和密钥扫描。环境变量过滤仅作用于子进程，密钥扫描无法识别编码字符串，网络防火墙因白名单包含 GitHub 而失效。研究团队从 MCP 服务器进程中成功提取了多项关键凭证，包括 GitHub 令牌和个人访问令牌。

三家厂商虽确认漏洞并修复，但未发布正式安全通告。这种处理方式揭示了行业困境，即厂商倾向于将此类问题视为设计局限而非安全漏洞。厂商默认信任模型自身的安全能力，却未在系统架构层面建立纵深防御。漏洞根源在于 AI 代理与开源平台间的信任关系，外部输入未被充分隔离。随着 AI 编程代理成为主流开发工作流的标配，这一攻击面还将持续扩大。

针对风险，研究者建议将提示词注入视为网络钓鱼，遵循最小权限原则。工具授权应采用白名单机制，明确声明代理所需工具。在凭证管理层面，应严格按照功能边界控制凭证作用域。开发者需更新工具版本，审查权限配置，并轮换可能暴露的密钥。对公开仓库应启用外部贡献者审批选项，避免未经审核的内容触发自动处理。