真正替人干脏活累活！华盛顿大学推出JobBench，最强AI只拿45.9

38 0 0

文章摘要

华盛顿大学联合多家研究机构推出了一项名为JobBench的全新基准测试，旨在评估人工智能智能体在实际职场环境中替代人类完成特定任务的能力。与传统仅关注经济价值的基准测试不同，该测试创新性地将人类意愿作为核心设计约束，重点测评智能体能否胜任职场人士最希望移交的繁琐工作。

过去关于人工智能与职场关系的探讨及现有基准测试主要围绕经济价值展开，侧重于衡量智能体在吸收工时、影响宏观经济或按市场工资定价的专业任务中的独立交付能力。然而，这种单一的经济视角忽略了从业者自身对工作自动化的偏好，专业人士对其工作职责的交接意愿实际上决定了哪些任务真正值得被自动化。

为实现这一目标，新基准的任务设计深度依赖于以劳动者为中心的调查数据，收集了超过一千五百名从业者对其各项职责的自动化意愿评分。研究团队将自动化意愿分数与年度工资总额相结合以量化经济暴露度，筛选出三十五个兼具高自动化意愿和高经济暴露度的职业，并从中提取可数字化、可评估且意愿评分较高的具体工作职责，构建了最终的任务来源池。

在最终的评测结果方面，研究揭示了一个关键发现，明确了当前技术的实际边界。即使是当前配置最强大的人工智能智能体，在面对领域专家真正希望交出的工作任务时，也仅能获得百分之四十五点九的得分。这一结论客观表明，尽管人工智能相关技术在持续发展，但在完全接替人类职场中那些令人厌倦且具备实际经济价值的日常任务方面，现有系统仍存在显著的能力差距，距离实现深度的职场任务自动化仍有较长的探索路径。