大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

59 0 0

文章摘要

当前通用人工智能领域面临定义模糊的困境，业界缺乏统一的衡量标准，导致发展目标如同罗夏墨迹测试般充满主观想象。真正的通用人工智能不应以模仿人类的逼真程度为标准，而应被定义为一种能够在计算、记忆和能量等现实约束下，像人类科学家一样广泛、高效且科学地适应新环境和任务的人工科学家。这一定义将智能视为有限资源下的适应能力，从根本上跳出了传统图灵测试和人类基准测试的框架。

当前主流的大语言模型主要依赖规模最大化路线，通过海量数据和算力存储近似答案。然而，这种被动学习模式缺乏主动实验和构建因果链条的能力，在面对分布外问题时容易暴露逻辑缺陷。通用人工智能必须具备主动规划实验以获取信息的能力，深入理解事物间的因果关系，并在探索未知与利用已知之间实现动态平衡，同时还需在能量受限的条件下优雅地解决问题。单纯依赖概率猜测和文本模仿无法跨越模仿能力与适应能力之间的鸿沟。

在构建智能系统的技术路线上，单一的规模最大化方法已显现出样本和能量效率低下的瓶颈。通用人工智能的实现无法仅靠单一路线的暴力美学，必然是规模最大化、简单性最大化与约束弱化最大化等多种元方法的深度融合。未来的评判标准将从人类考试排行榜转向适应性基准，重点考察系统在陌生环境中发现规律、理解规则以及自主提出并验证科学假说的能力。通用人工智能的突破并非大模型的线性迭代，而是一次深刻的路线重置与范式转移，其核心在于拥有主动追问和验证答案的科学家精神。