
文章摘要
OpenAI最新模型在国际数学奥林匹克竞赛(IMO)中取得了金牌水平的成绩,这一突破引发了广泛关注。IMO是全球最顶尖的数学竞赛,每年仅有不到8%的参赛者能够获得金牌。新模型在总共6道题中成功解决了5道,获得35分(满分42分),超过了今年的金牌线。这一成绩的取得并非依靠针对特定任务的狭隘方法,而是在通用强化学习和测试时计算扩展方面取得了新突破。OpenAI员工Alexander Wei透露,GPT-5即将发布,但IMO金牌模型是一个实验性研究,在几个月内都没有计划发布。
新模型的评测过程完全模拟了人类考试的条件,包括两场各4.5小时的考试,不能使用任何工具或联网,只能阅读官方题目陈述,然后用自然语言写出证明过程。最终成绩由三位前IMO奖牌获得者独立评分,只有在三人达成一致意见后才确定最终分数。这一严谨的评分过程确保了成绩的可靠性。IMO问题需要一种全新水平的持续创造性思维,而AI的进步速度令人瞠目结舌,从GSM8K到MATH基准测试,再到AIME,现在终于攻克了IMO这个需要长时间深度思考的难题。
唯一未能攻克的是第六题,这道被参赛者称为“最终Boss”的组合数学难题。去年IMO题目中,谷歌用Alphaproof和AlphaGeometry完成了四道题,未完成的两道也属于组合数学。DeepMind研究员Archit Sharma在OpenAI宣布后回复:“恭喜!抢在我们前面宣布了——第6题是新的基准了吗?”但这条推文很快就被删除了,引发了网友们的各种猜测。
陶哲轩在社交媒体上针对此事发表了长篇评论,指出由于缺乏统一的测试环境和标准,很难进行公平比较。他特别强调:“在没有预先公布方法论的情况下,不会对任何自我报告的AI竞赛表现发表评论。”陶哲轩用生动的比喻列举了多项AI可能采取的措施,这些措施均改变了竞赛形式从而影响题目难度。与此同时,数学竞赛评测平台MathArena发布了独立评测结果,即使是表现最好的Gemini 2.5 Pro也只获得了13分(31%),远低于铜牌线19分。
OpenAI团队对自己的成果充满信心,参与此项目的研究员Alexander Wei回忆说:“2021年,我的博士导师让我预测2025年7月AI在数学上的进展,我当时预测MATH基准测试能达到30%(还觉得其他人都太乐观了)。结果现在我们拿到了IMO金牌。”虽然OpenAI模型拿金牌的方法论未公开,但也有不少网友表示,不看过程,结果同样具有意义。OpenAI新模型的解题过程已公开,供进一步查看。
原文和模型
【原文链接】 阅读原文 [ 1988字 | 8分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆