顶级模型得分低于1%：ARC-AGI-3全新人机较量，揭开智能体真实水平

37 0 0

文章摘要

本文围绕ARC-AGI-3基准测试的发布及其在衡量通用人工智能真实能力方面的作用展开。当前大语言模型虽能在代码编写、考试应答等任务中表现出色，但其“智能”常源于数据记忆与模式匹配，并非真正的适应性推理。ARC-AGI-3通过剥离语言与外部记忆、聚焦行动效率，揭示出机器与人类之间在基础适应力上的显著鸿沟。该基准自2019年首次提出（ARC-AGI-1），历经多轮迭代：2020年Kaggle挑战赛最高准确率20%，2024年提升至53.5%；2025年二代版本引入多步推理，顶尖团队仅达24%，仍远未触及85%的奖金门槛。

为更真实评估通用智能，2025年推出的ARC-AGI-3将考核重点从静态任务转向交互式环境，强调探索、建模、目标设定与规划执行四项核心能力。系统采用64×64像素网格与5类操作指令，排除文化符号与数字/字母等外部依赖，仅基于基础几何、拓扑、重力等先天知识先验构建场景。所有环境由定制引擎生成并严格验证，确保随机策略通关概率低于1/10000，公共集仅为演示用途，强化对分布外泛化能力的考察。

在评价体系上，以“行动效率”为核心标尺——即解决任务所消耗的最小回合数，再与人类基准对比得出相对分数。评分采用幂律函数放大低效表现差异，并设置单关上限（1.0倍人类）及加权机制（后期关卡权重更高），防止单一技巧刷分。官方排行榜拒绝针对公开环境优化的程序外壳，只接受通用API接入的基础模型，同时限制定制运行步数避免过度计算开销。

真实人类基准通过旧金山线下测试获取：486名无训练背景者完成2893次挑战，平均耗时8.1分钟；最优解估算显示，部分AI模型在半私有榜上成绩不足1%。前沿方案如Tufa实验室（12.58%）与盲松鼠（6.71%）多采用启发式搜索，杜克大学则创新地压缩上下文信息应对64×64视觉输入，Symbolica AI团队借助协调器—子代理架构规避信息过载问题。

尽管2026年ARC挑战赛将扩增至200万美元奖金，研究者仍指出：现有AI系统在假设修正、不确定性规划和高效探索等方面持续受阻，而人类却可依托直觉与灵活适应快速突破瓶颈。本文强调，“真正智能”的检验并非停留在任务完成度上，而在于是否能在未知环境中用最少行动实现目标——此为未来评测体系的核心方向。

ARC-AGI-3通过剥离语言和外部记忆，把行动效率作为唯一标尺，无比清晰地揭开了当前机器智能与真正人类适应力之间的巨大鸿沟。
新版本将考核重点转向代理智能，采用一套交互式回合制环境，重点考察智能体的四项核心能力：探索、建模、目标设定与规划执行。
所有环境强制遵循核心知识先验原则，绝不使用数字、字母、红绿灯或花朵等文化符号，确保只测试先天的推理能力。
在评价体系上，以“行动效率”为核心标尺——即解决任务所消耗的最小回合数，再与人类基准对比得出相对分数。
尽管2026年ARC挑战赛将扩增至200万美元奖金，研究者仍指出：现有AI系统在假设修正、不确定性规划和高效探索等方面持续受阻，而人类却可依托直觉与灵活适应快速突破瓶颈。