文章摘要
【关 键 词】 认知能力、评估框架、AGI测评、元认知、Kaggle竞赛
谷歌DeepMind发布《Measuring Progress Toward AGI: A Cognitive Framework》论文,提出一套基于认知科学的AGI评估体系,旨在解决当前AGI进展缺乏客观度量标准的问题。
该框架将通用智能拆解为10项核心认知能力:感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决与社会认知,并强调任一维度的显著短板都将导致系统无法胜任多数人类可完成的现实任务。
其中,元认知被特别指出是区分可靠AI的关键——系统需具备对自身知识状态的认知、监控及调控能力,否则其输出可信度存疑;记忆能力则不仅包含存储与提取,还明确纳入“遗忘”这一主动清理过时信息的功能。
为实现可操作评估,团队设计三阶段协议:首先开发针对单一认知能力的保密题库任务,确保测量效度;其次采集具有人口代表性的人类基线数据;最终通过雷达图呈现AI在10维上的相对位置,以揭示其“锯齿状”能力分布特征——一个模型可能在逻辑推理上超越99%人类,却在社会认知或常识推理上不及中位数水平。
该方法直面传统评测两大缺陷:一是训练数据污染导致的“小镇做题家”现象,即高分仅反映记忆而非理解;二是评测对象模糊,混淆了孤立模型能力与集成系统行为(如调用搜索、代码执行等外部工具)。
为此,DeepMind联合Kaggle发起20万美元黑客松,聚焦学习、元认知、注意力、执行功能与社会认知五大评估荒地,鼓励全球研究者共建基准测试。
框架亦坦承其局限性:未涵盖处理速度、系统倾向性(如风险偏好与价值对齐)、创造力整体性及端到端部署实效等维度;同时承认人类认知分类法难以完全覆盖AI原生能力(如LiDAR感知、原生图像生成),分类体系本身需持续迭代。
论文的核心贡献在于推动AGI评估从主观判断转向有理论支撑、可复现、可扩展的科学路径,其目标并非定义AGI终点,而是建立通用、透明且动态演进的“体检”机制,为行业提供共同参照系。
原文和模型
【原文链接】 阅读原文 [ 3281字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆



