GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

 

文章摘要


【关 键 词】 前沿AI博士推理FormulaOne模型测试人工专家智能

前沿AI模型能否做到博士级推理引发关注。此前谷歌、OpenAI的模型在数学奥林匹克水平测试中达金牌水准,让人联想其是否具备解决博士级科研难题的推理能力,但现实或许并不乐观。

AAI机构提出的新基准FormulaOne,让GPT – 5、o3 Pro等一众前沿大模型集体得零分。FormulaOne包含220个新颖的图结构动态规划问题,按难度分为三类,从浅层直至科研级别,最高等级难度的题涉及拓扑与几何、组合问题分析等。这些问题陈述自然,但其解决方案并不显而易见,其可解性由Courcelle提出的算法元定理保证,关键在于使用树分解结构,算法通过遍历由“袋”构成的树并运用动态规划分步解决问题,不过发现正确动态规划解法难度非凡,遍布组合与逻辑陷阱,要求对问题底层结构有深刻理解。

该工作在社交媒体引发关注,有人提议让人类博士生也参与评估。测试结果显示,在浅层难度上,顶尖模型表现达50%–70%,表明任务处于其训练分布内;在深层难度上,Grok 4、Gemini – Pro等模型最多只能解出1/100的题目,GPT – 5 Pro相对较好,解出4/100;在最深层难度上,所有模型成功率均为0%。

AAI是一家2023年8月由以色列知名企业家、科学家Amnon Shashua创办的人工智能初创公司。Shashua在自动驾驶、人工视觉和AI领域声誉极高。AAI核心目标是推动“人工专家智能”(AEI)的理论与应用,提出区别于传统窄域AI和AGI的新AI发展路径,强调将领域知识与严密科学推理能力相结合,突破传统瓶颈,使AI能像顶级人类专家一样解决复杂科学或工程难题。创立一年内,公司已吸引数千万美元投资,并获赠100万美元计算资源加速AI基础设施建设。

原文和模型


【原文链接】 阅读原文 [ 1061字 | 5分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...