先别急着给OpenAI加冕!陶哲轩:这种「金牌」,含金量取决于「赛制」

文章摘要
OpenAI 最近宣布其推理模型在国际数学奥林匹克(IMO)竞赛中取得了金牌水平的成绩,这一消息引发了广泛关注。该模型在严格遵循人类选手比赛规则的条件下,成功解决了2025年IMO六道题目中的五道,获得了35分(满分42分)的成绩。每道题目由三位前IMO奖牌获得者独立评分,最终分数在达成一致后确定。这一成绩不仅展示了模型在数学推理方面的强大能力,也标志着AI在复杂问题解决领域的重大突破。
然而,数学家陶哲轩对此提出了谨慎的看法。他指出,如果没有严格控制、标准化的测试条件,AI模型与人类的表现无法进行有意义的比较。他通过比喻说明,改变竞赛的形式可能会显著影响学生的成功率,因此,人们应警惕将不同AI模型在IMO中的表现进行“同类比较”。陶哲轩还强调,对于任何未在赛前披露其方法论的、自我报告的AI竞赛表现结果,他将不予置评。
网友对此展开了广泛讨论。有人指出,OpenAI的模型在训练期间可能已经记住了整个互联网的语料,即使不调用工具,与无法访问互联网的人类学生相比也不够公平。但也有人认为,AI已经能够在“难以验证”的领域进行超过一个小时的推理并给出正确答案,这一进展本身值得关注。OpenAI推理研究主管Noam Brown也提到,他们还有很大的空间来进一步提升测试时的计算能力和效率。
OpenAI的这一成就不仅展示了其在AI推理能力上的突破,也为其在技术前沿的地位提供了有力支持。领导这一项目的Alexander Wei专注于LLM的推理能力提升,特别是在数学推理和自然语言证明生成方面。他的研究背景和成就为这一项目提供了坚实的理论基础和实践经验。
总的来说,OpenAI的这一成果不仅标志着AI在数学推理领域的重大进展,也引发了关于AI模型与人类表现比较的深入思考。尽管存在争议,但这一成就无疑为AI技术的发展开辟了新的可能性。
原文和模型
【原文链接】 阅读原文 [ 2274字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★