GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

AIGC动态8个月前发布 almosthuman2014

1,798 0 0

文章摘要

【关键词】 前沿AI、博士推理、FormulaOne、模型测试、人工专家智能

前沿AI模型能否做到博士级推理引发关注。此前谷歌、OpenAI的模型在数学奥林匹克水平测试中达金牌水准，让人联想其是否具备解决博士级科研难题的推理能力，但现实或许并不乐观。

AAI机构提出的新基准FormulaOne，让GPT – 5、o3 Pro等一众前沿大模型集体得零分。FormulaOne包含220个新颖的图结构动态规划问题，按难度分为三类，从浅层直至科研级别，最高等级难度的题涉及拓扑与几何、组合问题分析等。这些问题陈述自然，但其解决方案并不显而易见，其可解性由Courcelle提出的算法元定理保证，关键在于使用树分解结构，算法通过遍历由“袋”构成的树并运用动态规划分步解决问题，不过发现正确动态规划解法难度非凡，遍布组合与逻辑陷阱，要求对问题底层结构有深刻理解。

该工作在社交媒体引发关注，有人提议让人类博士生也参与评估。测试结果显示，在浅层难度上，顶尖模型表现达50%–70%，表明任务处于其训练分布内；在深层难度上，Grok 4、Gemini – Pro等模型最多只能解出1/100的题目，GPT – 5 Pro相对较好，解出4/100；在最深层难度上，所有模型成功率均为0%。

AAI是一家2023年8月由以色列知名企业家、科学家Amnon Shashua创办的人工智能初创公司。Shashua在自动驾驶、人工视觉和AI领域声誉极高。AAI核心目标是推动“人工专家智能”（AEI）的理论与应用，提出区别于传统窄域AI和AGI的新AI发展路径，强调将领域知识与严密科学推理能力相结合，突破传统瓶颈，使AI能像顶级人类专家一样解决复杂科学或工程难题。创立一年内，公司已吸引数千万美元投资，并获赠100万美元计算资源加速AI基础设施建设。