OpenAI 3万亿美元测试，AI首战44个行业人类专家！

1,222 0 0

文章摘要

AI下半场，超级人工智能ASI正引领新智能革命，OpenAI推出GDPval评估体系，助力AI从实验室走向经济战场。

在AI领域，AGI已过时，ASI成为业内讨论焦点，它是全面超越人类智能的系统。OpenAI首席科学家透露下一步研究重点是推理和打造自动化研究人员。为展示大模型服务现实世界的能力，OpenAI推出GDPval评估体系，专家评审员将顶尖模型输出与人类专家工作对比。哈佛大学教授认为，AI在多项实际任务上表现出色，人类与AI结合更高效。OpenAI承认Claude Opus 4.1表现最佳，但GPT系列进步速度快，一年内胜率几乎翻番。

GDPval旨在衡量AI的3万亿美元影响。过去大模型评估与现实工作场景有距离，OpenAI逐步开发更贴近实际、具经济意义的评估方法，GDPval是关键节点。它源于现实工作任务，覆盖9大行业、44种职业，共1320个高度专业化任务，其中220个金标任务子集已开源。该评估任务贴近实际、形式多样，要求模型处理完整参考材料与工作背景，输出形式丰富。不过，GDPval目前只是起点，未完全覆盖现实知识工作的复杂性。

早期测试显示，当前领先大模型在某些任务上逼近专业水平。在220项金标任务盲测中，Claude Opus 4.1美学表现强，GPT – 5准确性领先，Claude Opus 4.1在近一半任务中表现与人类相当或更好。从GPT – 4o到GPT – 5，模型表现几乎翻倍，且顶尖模型完成任务速度和成本平均是人类的1%。OpenAI通过增量训练实验性内部特定版GPT – 5，证实可提升模型在GDPval任务中的表现，扩大模型规模等操作也能带来性能增益。

在GDPval任务评估中，OpenAI依赖资深从业者作为评分员，他们平均有14年从业经验，来自众多顶尖机构。评分员在盲评下对比模型与人类成果，每位任务撰写者制定详细评分标准。此外，OpenAI开发了自动评分器，虽与人类评估一致性达66%，但未取代人类打分员。

随着AI能力提升，劳动力市场将发生结构性变化。GDPval揭示AI可承接日常事务型任务，让人类专注更具创造力和判断力的工作，AI补充人类将释放经济增长潜力。OpenAI希望推动AI工具普及平民化，开放GDPval金标任务子集和公共评分平台，助力该领域发展。