OpenAI研究大模型对GDP贡献，三大行业已能代替人类，并自曝不敌Claude

AIGC动态6个月前发布 almosthuman2014

627 0 0

OpenAI研究大模型对GDP贡献，三大行业已能代替人类，并自曝不敌Claude

文章摘要

AI 发展迅速，其颠覆近在眼前，OpenAI 推出名为 GDPval 的新评估方法，用于跟踪模型在具有经济价值的现实世界任务上的表现。

GDPval 以国内生产总值 (GDP) 为关键经济指标，从对 GDP 贡献最大的行业中的关键职业提取任务。它涵盖从对美国 GDP 贡献最大的 9 个行业甄选出的 44 个职业，全套评估包含 1320 项专业任务，黄金开源评估包含 220 项。这些任务由经验丰富的专业人士设计审核，基于真实工作成果，具有现实性和多样性，与其他评估不同，它关注基于可交付成果的任务，附带参考文件和上下文，预期交付成果多样。

评估结果显示，当今最优秀的前沿模型已接近行业专家的工作质量。在 GDPval 黄金数据集的 220 项任务中，Claude Opus 4.1 是表现最佳的模型，在 49% 的任务中被评为优于或与行业专家相当，尤其在美观性方面出色；GPT – 5 则在准确性方面更为出色。从 2024 年春季的 GPT – 4o 到 2025 年夏季的 GPT – 5，性能提升明显，前沿模型完成任务速度比行业专家快约 100 倍，成本低 100 倍。

OpenAI 通过专家评分员评估模型表现，评分员盲评比较 AI 和人类交付成果并排名，同时还开发了“自动评分员”作为辅助。此外，OpenAI 逐步训练 GPT – 5 的内部实验版本提升了 GDPval 任务性能，增加模型规模、鼓励更多推理步骤以及提供更丰富的任务上下文都带来了可衡量的收益。

GDPval 的早期结果表明，AI 能更快、更低成本完成一些重复性、明确规定的任务，它强调了人工智能可处理日常任务的领域，让人们有更多时间投入创造性和判断性工作，有望带来显著经济增长。不过，GDPval 尚处于起步阶段，OpenAI 计划继续扩展它，以涵盖更多职业、行业和任务类型，提高交互性，添加处理模糊性的任务，长期目标是更好地衡量多元化知识工作的进展。