按照Bengio等大佬的AGI新定义,GPT-5才实现了不到10%

按照Bengio等大佬的AGI新定义,GPT-5才实现了不到10%

 

文章摘要


【关 键 词】 AGI定义认知能力人工智能评估框架技术瓶颈

通用人工智能(AGI)的定义长期以来缺乏统一标准,近期由Yoshua Bengio、埃里克・施密特等学者联合提出的研究框架首次实现了可量化测评。该框架以人类认知为基准,基于卡特尔-霍恩-卡罗尔(CHC)智力理论,将AGI分解为十大核心能力领域,包括一般知识、数学能力、工作记忆等,每项占比10%。通过改编人类心理测验体系,研究团队构建出0-100%的”通用智力指数”,其中100%代表达到受过良好教育成年人的认知水平。

当前最先进的GPT-4和GPT-5模型在测评中暴露出显著的能力不平衡现象。测试结果显示,两个模型在所有分量上的得分均未超过10%,尤其在长期记忆存储(MS)方面接近零分,呈现出类似”失忆症”的特征。这种”锯齿状”能力分布揭示了AI系统依赖上下文窗口补偿记忆缺陷、通过检索增强生成掩盖幻觉问题等”能力扭曲”现象。研究指出,这些权宜之计制造了脆弱的”通用智能幻觉”,但无法解决基础认知机制的实质性缺陷。

框架特别强调了认知能力的相互依赖性。例如解决数学问题需要同时调动数学能力(M)和即时推理(R),理解电影需整合听觉、视觉处理与工作记忆。这种整体性特征表明,单一领域的突破难以实现真正的通用智能。研究团队将智能类比为高性能引擎,指出当前AI系统存在多个关键”部件”缺陷,这些瓶颈严重制约了整体认知水平的提升。

该研究明确区分了认知能力评估与经济价值创造,将AGI严格定义为人类水平的心智能力。与部分企业将AGI与千亿美元经济收益挂钩的做法不同,该框架聚焦核心认知维度,排除运动技能等物理能力评估。研究同时界定了Pandemic AI、Cyberwarfare AI等相关概念,为后续研究提供清晰的概念边界。

实现AGI仍需突破多项重大技术障碍,包括解决Meta正在攻关的世界建模、李飞飞团队研究的空间导航记忆等挑战。研究预测短期内(如一年内)达到100%AGI分数的可能性极低。该框架的提出不仅为AGI发展提供了可测量的里程碑,更重要的是揭示了当前技术路线存在的本质性局限,为未来研究指明了需要重点突破的方向。

原文和模型


【原文链接】 阅读原文 [ 3680字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...