标签：探索负担

当Agent真正走进复杂数据分析场景：DataClawBench 用492个真实任务，给前沿模型做了一次过程级体检

真实数据分析工作流具有高度的开放性与严谨性要求，其核心挑战在于未知且嘈杂数据环境带来的沉重探索负担。现有主流评测基准通常通过预设数据源、提供完整结...

AI-Agent

2个月前