谷歌DeepMind首发AGI终极考纲！20万全球悬赏，撕下所有大模型伪装

231 0 0

文章摘要

谷歌DeepMind发布《Measuring Progress Toward AGI: A Cognitive Framework》论文，提出一套基于认知科学的AGI评估体系，旨在解决当前AGI进展缺乏客观度量标准的问题。

该框架将通用智能拆解为10项核心认知能力：感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决与社会认知，并强调任一维度的显著短板都将导致系统无法胜任多数人类可完成的现实任务。

其中，元认知被特别指出是区分可靠AI的关键——系统需具备对自身知识状态的认知、监控及调控能力，否则其输出可信度存疑；记忆能力则不仅包含存储与提取，还明确纳入“遗忘”这一主动清理过时信息的功能。

为实现可操作评估，团队设计三阶段协议：首先开发针对单一认知能力的保密题库任务，确保测量效度；其次采集具有人口代表性的人类基线数据；最终通过雷达图呈现AI在10维上的相对位置，以揭示其“锯齿状”能力分布特征——一个模型可能在逻辑推理上超越99%人类，却在社会认知或常识推理上不及中位数水平。

该方法直面传统评测两大缺陷：一是训练数据污染导致的“小镇做题家”现象，即高分仅反映记忆而非理解；二是评测对象模糊，混淆了孤立模型能力与集成系统行为（如调用搜索、代码执行等外部工具）。

为此，DeepMind联合Kaggle发起20万美元黑客松，聚焦学习、元认知、注意力、执行功能与社会认知五大评估荒地，鼓励全球研究者共建基准测试。

框架亦坦承其局限性：未涵盖处理速度、系统倾向性（如风险偏好与价值对齐）、创造力整体性及端到端部署实效等维度；同时承认人类认知分类法难以完全覆盖AI原生能力（如LiDAR感知、原生图像生成），分类体系本身需持续迭代。

论文的核心贡献在于推动AGI评估从主观判断转向有理论支撑、可复现、可扩展的科学路径，其目标并非定义AGI终点，而是建立通用、透明且动态演进的“体检”机制，为行业提供共同参照系。

原文和模型

【原文链接】 阅读原文 [ 3281字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆

阿里云百炼

大模型服务平台是阿里云基于通义大模型等多种大模型的一站式大模型开发平台。

# AIGC动态 # 图像生成 # 大模型 # AGI测评 # Kaggle竞赛 # 元认知 # 认知能力 # 评估框架

文章版权归作者所有，未经允许请勿转载。

UCL博士生创业一年，造出最强AI「ML工程师」，OpenAI盖戳认证

机器之心

3,067

马斯克为啥非要给你脑袋开个瓢，直接给脑袋接个高压电不行吗

硅星人Pro

2,701

别让大模型想太多了，过度思考会影响性能

AIGC开放社区

1,731

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

机器之心

2,724

按照Bengio等大佬的AGI新定义，GPT-5才实现了不到10%

机器之心

691

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

机器之心

2,055

暂无评论

暂无评论...

谷歌DeepMind首发AGI终极考纲！20万全球悬赏，撕下所有大模型伪装

文章摘要

原文和模型

更全面的具身智能真机评测来了！CVPR 2026 ManipArena挑战赛邀你打榜

手机版的 OpenClaw 来了，比豆包手机还神。

相关文章

暂无评论

热门网址

热门文章

谷歌DeepMind首发AGI终极考纲！20万全球悬赏，撕下所有大模型伪装

文章摘要

原文和模型

更全面的具身智能真机评测来了！CVPR 2026 ManipArena挑战赛邀你打榜

手机版的 OpenClaw 来了，比豆包手机还神。

相关文章

暂无评论

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址

热门文章