跨会话埋雷，AI毫无察觉！CIK投毒风险曝光：再安全的大模型也扛不住

90 0 0

文章摘要

加州大学圣克鲁兹分校联合多家机构发布了关于开源智能体平台安全的评估报告，指出拥有广泛系统权限的自动化工具存在极高滥用风险。研究人员首次在没有模拟环境的现实条件下，对接了真实 Gmail 账户与支付系统进行系统性压力测试，结果证实了无论基础模型如何，其在应对特定持久化数据污染时的防护能力极其有限。该工作建立了包含执行能力、身份信息及积累知识三个维度的新型分类框架，发现所有主流大模型在被篡改上下文参数后都未能抵抗住跨会话的攻击冲击。

数据显示，模型在面对此类状态注入时的实际攻击成功率平均翻了近三倍，说明单一升级底层算法无法解决这一架构性问题。具体的攻击演示涵盖了伪造退款偏好、诱导同步敏感鉴权凭据以及静默运行清除宿主目录脚本等极端操作，攻击者仅需极少的交互步骤即可完成对私人财务、身份信息与工作文件的不可控操纵，证明了单纯依靠对话层面的安全训练不足以防御深层渗透。虽然部分技术路径能缓解恶意代码执行，但无法完全杜绝非法指令进入本地系统的风险。

防御手段的实验同样揭示了严峻的客观现实，增加权限校验虽降低风险但严重削弱了系统自我优化的效率。核心难题在于如何让既具备学习能力又保持静态纯洁的状态维持长久安全，这构成了一个难以调和的系统性两难选择。即便采用审查机制与人工确认后，当前的技术方案大多只能在单维层面获得部分改善，而多重维度串联投毒产生的复合打击威力尚未被彻底探索。这意味着现有的 AI 智能体安全防线尚处于初级修补阶段，亟需在架构层面实现彻底的权力隔离与行为溯源。

业界普遍认同安全趋势已经从单纯的文本输入欺骗转向更深层次的权限与数据结构控制。目前市面上的多数解决方案集中在传统扫描和沙箱技术之上，缺少针对持久状态文件本身的动态审计能力。对于终端用户而言，关闭不必要的插件安装与定期清理历史记录是规避风险的关键措施，而对于开发团队来说，建立可信赖的代码分发与验证标准则是未来的必经之路。此次测试所呈现的数据保守来看仅是现有威胁体系的最低表现。