Agent 该怎么做真正的安全评测？

371 0 0

文章摘要

上海人工智能实验室等机构提出了一系列面向智能体安全评测与诊断的基准测试，包括ATBench及其扩展版本ATBench-Claw和ATBench-CodeX。这些研究将智能体安全评测的焦点从单一的最终回答转向了完整的执行轨迹。未来的智能体基准测试不仅考察模型解答问题的能力，更核心的是评估其能否在真实系统边界内可控地完成任务。

ATBench构建了一个包含千条多步交互轨迹的数据集，涵盖了风险来源、失败模式和现实伤害三个维度的安全风险。该基准测试引入了长上下文延迟触发协议，能够模拟风险在多轮工具调用和环境反馈中逐渐演变的过程。实验结果表明，当前模型在进行细粒度的安全诊断时表现明显下降。工程实践不仅需要判断任务是否安全，更需要精准定位风险源头和失败环节，从而提供具备可解释性的诊断信息。

为适应不同执行环境的特异性，研究进一步推出了ATBench-Claw和ATBench-CodeX。前者聚焦于多工具、多会话及跨边界外部动作的OpenClaw环境，重点评估动作中心性、状态依赖性和外部连接性带来的风险。后者针对代码执行环境，关注仓库状态修改、依赖引入和权限边界处理等环节，揭示了代码智能体在逐步行动中可能引发的系统级风险。不同执行环境下的智能体面临的接口和上下文差异巨大，评测框架必须结合具体运行环境进行定制化升级。

整体研究脉络清晰展示了智能体安全评测向系统执行层演进的趋势。评测结果表明，具备执行能力的智能体在进入生产系统后，面临的安全挑战远超文本层面的内容拦截。智能体安全评测的核心已转变为评估其在复杂环境中对动作可逆性、信任边界和审批流程的理解与控制能力，这标志着系统级执行评测将成为下一阶段基准测试的关键方向。