
文章摘要
【关 键 词】 超级AI、智能革命、GDPval、模型评估、劳动力变
AI下半场,超级人工智能ASI正引领新智能革命,OpenAI推出GDPval评估体系,助力AI从实验室走向经济战场。
在AI领域,AGI已过时,ASI成为业内讨论焦点,它是全面超越人类智能的系统。OpenAI首席科学家透露下一步研究重点是推理和打造自动化研究人员。为展示大模型服务现实世界的能力,OpenAI推出GDPval评估体系,专家评审员将顶尖模型输出与人类专家工作对比。哈佛大学教授认为,AI在多项实际任务上表现出色,人类与AI结合更高效。OpenAI承认Claude Opus 4.1表现最佳,但GPT系列进步速度快,一年内胜率几乎翻番。
GDPval旨在衡量AI的3万亿美元影响。过去大模型评估与现实工作场景有距离,OpenAI逐步开发更贴近实际、具经济意义的评估方法,GDPval是关键节点。它源于现实工作任务,覆盖9大行业、44种职业,共1320个高度专业化任务,其中220个金标任务子集已开源。该评估任务贴近实际、形式多样,要求模型处理完整参考材料与工作背景,输出形式丰富。不过,GDPval目前只是起点,未完全覆盖现实知识工作的复杂性。
早期测试显示,当前领先大模型在某些任务上逼近专业水平。在220项金标任务盲测中,Claude Opus 4.1美学表现强,GPT – 5准确性领先,Claude Opus 4.1在近一半任务中表现与人类相当或更好。从GPT – 4o到GPT – 5,模型表现几乎翻倍,且顶尖模型完成任务速度和成本平均是人类的1%。OpenAI通过增量训练实验性内部特定版GPT – 5,证实可提升模型在GDPval任务中的表现,扩大模型规模等操作也能带来性能增益。
在GDPval任务评估中,OpenAI依赖资深从业者作为评分员,他们平均有14年从业经验,来自众多顶尖机构。评分员在盲评下对比模型与人类成果,每位任务撰写者制定详细评分标准。此外,OpenAI开发了自动评分器,虽与人类评估一致性达66%,但未取代人类打分员。
随着AI能力提升,劳动力市场将发生结构性变化。GDPval揭示AI可承接日常事务型任务,让人类专注更具创造力和判断力的工作,AI补充人类将释放经济增长潜力。OpenAI希望推动AI工具普及平民化,开放GDPval金标任务子集和公共评分平台,助力该领域发展。
原文和模型
【原文链接】 阅读原文 [ 2630字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★