标签:探索负担

当Agent真正走进复杂数据分析场景:DataClawBench 用492个真实任务,给前沿模型做了一次过程级体检

真实数据分析工作流具有高度的开放性与严谨性要求,其核心挑战在于未知且嘈杂数据环境带来的沉重探索负担。现有主流评测基准通常通过预设数据源、提供完整结...