陶哲轩回应OpenAI新模型IMO夺金！GPT-5测试版也曝光了

173 0 0

文章摘要

OpenAI最新模型在国际数学奥林匹克竞赛（IMO）中取得了金牌水平的成绩，这一突破引发了广泛关注。IMO是全球最顶尖的数学竞赛，每年仅有不到8%的参赛者能够获得金牌。新模型在总共6道题中成功解决了5道，获得35分（满分42分），超过了今年的金牌线。这一成绩的取得并非依靠针对特定任务的狭隘方法，而是在通用强化学习和测试时计算扩展方面取得了新突破。OpenAI员工Alexander Wei透露，GPT-5即将发布，但IMO金牌模型是一个实验性研究，在几个月内都没有计划发布。

新模型的评测过程完全模拟了人类考试的条件，包括两场各4.5小时的考试，不能使用任何工具或联网，只能阅读官方题目陈述，然后用自然语言写出证明过程。最终成绩由三位前IMO奖牌获得者独立评分，只有在三人达成一致意见后才确定最终分数。这一严谨的评分过程确保了成绩的可靠性。IMO问题需要一种全新水平的持续创造性思维，而AI的进步速度令人瞠目结舌，从GSM8K到MATH基准测试，再到AIME，现在终于攻克了IMO这个需要长时间深度思考的难题。

唯一未能攻克的是第六题，这道被参赛者称为“最终Boss”的组合数学难题。去年IMO题目中，谷歌用Alphaproof和AlphaGeometry完成了四道题，未完成的两道也属于组合数学。DeepMind研究员Archit Sharma在OpenAI宣布后回复：“恭喜！抢在我们前面宣布了——第6题是新的基准了吗？”但这条推文很快就被删除了，引发了网友们的各种猜测。

陶哲轩在社交媒体上针对此事发表了长篇评论，指出由于缺乏统一的测试环境和标准，很难进行公平比较。他特别强调：“在没有预先公布方法论的情况下，不会对任何自我报告的AI竞赛表现发表评论。”陶哲轩用生动的比喻列举了多项AI可能采取的措施，这些措施均改变了竞赛形式从而影响题目难度。与此同时，数学竞赛评测平台MathArena发布了独立评测结果，即使是表现最好的Gemini 2.5 Pro也只获得了13分（31%），远低于铜牌线19分。

OpenAI团队对自己的成果充满信心，参与此项目的研究员Alexander Wei回忆说：“2021年，我的博士导师让我预测2025年7月AI在数学上的进展，我当时预测MATH基准测试能达到30%（还觉得其他人都太乐观了）。结果现在我们拿到了IMO金牌。”虽然OpenAI模型拿金牌的方法论未公开，但也有不少网友表示，不看过程，结果同样具有意义。OpenAI新模型的解题过程已公开，供进一步查看。