顶级模型得分低于1%:ARC-AGI-3全新人机较量,揭开智能体真实水平

AIGC动态2小时前发布 AIGCOPEN
37 0 0
顶级模型得分低于1%:ARC-AGI-3全新人机较量,揭开智能体真实水平

 

文章摘要


【关 键 词】 AIGC大模型推理能力基准测试通用智能

本文围绕ARC-AGI-3基准测试的发布及其在衡量通用人工智能真实能力方面的作用展开。当前大语言模型虽能在代码编写、考试应答等任务中表现出色,但其“智能”常源于数据记忆与模式匹配,并非真正的适应性推理。ARC-AGI-3通过剥离语言与外部记忆、聚焦行动效率,揭示出机器与人类之间在基础适应力上的显著鸿沟。该基准自2019年首次提出(ARC-AGI-1),历经多轮迭代:2020年Kaggle挑战赛最高准确率20%,2024年提升至53.5%;2025年二代版本引入多步推理,顶尖团队仅达24%,仍远未触及85%的奖金门槛。

为更真实评估通用智能,2025年推出的ARC-AGI-3将考核重点从静态任务转向交互式环境,强调探索、建模、目标设定与规划执行四项核心能力。系统采用64×64像素网格与5类操作指令,排除文化符号与数字/字母等外部依赖,仅基于基础几何、拓扑、重力等先天知识先验构建场景。所有环境由定制引擎生成并严格验证,确保随机策略通关概率低于1/10000,公共集仅为演示用途,强化对分布外泛化能力的考察。

在评价体系上,以“行动效率”为核心标尺——即解决任务所消耗的最小回合数,再与人类基准对比得出相对分数。评分采用幂律函数放大低效表现差异,并设置单关上限(1.0倍人类)及加权机制(后期关卡权重更高),防止单一技巧刷分。官方排行榜拒绝针对公开环境优化的程序外壳,只接受通用API接入的基础模型,同时限制定制运行步数避免过度计算开销。

真实人类基准通过旧金山线下测试获取:486名无训练背景者完成2893次挑战,平均耗时8.1分钟;最优解估算显示,部分AI模型在半私有榜上成绩不足1%。前沿方案如Tufa实验室(12.58%)与盲松鼠(6.71%)多采用启发式搜索,杜克大学则创新地压缩上下文信息应对64×64视觉输入,Symbolica AI团队借助协调器—子代理架构规避信息过载问题。

尽管2026年ARC挑战赛将扩增至200万美元奖金,研究者仍指出:现有AI系统在假设修正、不确定性规划和高效探索等方面持续受阻,而人类却可依托直觉与灵活适应快速突破瓶颈。本文强调,“真正智能”的检验并非停留在任务完成度上,而在于是否能在未知环境中用最少行动实现目标——此为未来评测体系的核心方向。

ARC-AGI-3通过剥离语言和外部记忆,把行动效率作为唯一标尺,无比清晰地揭开了当前机器智能与真正人类适应力之间的巨大鸿沟。
新版本将考核重点转向代理智能,采用一套交互式回合制环境,重点考察智能体的四项核心能力:探索、建模、目标设定与规划执行。
所有环境强制遵循核心知识先验原则,绝不使用数字、字母、红绿灯或花朵等文化符号,确保只测试先天的推理能力
在评价体系上,以“行动效率”为核心标尺——即解决任务所消耗的最小回合数,再与人类基准对比得出相对分数。
尽管2026年ARC挑战赛将扩增至200万美元奖金,研究者仍指出:现有AI系统在假设修正、不确定性规划和高效探索等方面持续受阻,而人类却可依托直觉与灵活适应快速突破瓶颈。

原文和模型


【原文链接】 阅读原文 [ 3656字 | 15分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...