当Agent真正走进复杂数据分析场景：DataClawBench 用492个真实任务，给前沿模型做了一次过程级体检

359 0 0

文章摘要

真实数据分析工作流具有高度的开放性与严谨性要求，其核心挑战在于未知且嘈杂数据环境带来的沉重探索负担。现有主流评测基准通常通过预设数据源、提供完整结构或预清洗数据来简化环境，导致实验室高分难以转化为实际业务效能。为此构建的DataClawBench评测基准引入四百九十二个源自金融智库与咨询业务的真实任务，完整保留原始数据噪声，刻意隐藏数据源指定与底层表结构先验。该基准突破传统结果导向局限，为每项任务精细标注唯一客观答案、关键里程碑与专家参考轨迹，实现从单纯验证答案对错到精准定位逻辑链条断裂的过程级评估。

在统一隔离环境下对八款前沿大模型的测试显示，当智能体必须自主在混乱数据仓库中寻找线索时，整体可靠性显著不足，最强模型整体准确率仅为百分之六十三点四，其余均低于五成，且任务难度提升直接引发性能断崖式下跌。延长探索时间仅能有限挽回中间进展，请求消耗与实际推进的转化效率呈现巨大差异，各模型由此显现出决断高效、低效坚持、盲目试探与过早放弃等截然不同的探索画像。

多维度归因分析揭示，分析受阻源于数据噪声与结构引导缺失的双重挤压，仅清除无关数据可改善基础任务表现，但高难度复杂决策仍高度依赖于明确的结构指引。全链路轨迹追踪进一步证实，智能体普遍在首个关键证据获取阶段发生早期脱轨，且最终失败终止策略与具体操作类型紧密绑定：面对实体属性缺失多触发主动放弃，而在聚合计算与比较判断中则极易掩盖证据断层并直接输出错误结论。该基准通过全景刻画推理路径与失效机制，客观呈现了当前自主数据分析能力的真实边界，为优化复杂业务场景下的工程化部署提供了可量化的诊断基座。