先别急着给OpenAI加冕！陶哲轩：这种「金牌」，含金量取决于「赛制」

AIGC动态8个月前发布 almosthuman2014

1,629 0 0

文章摘要

OpenAI 最近宣布其推理模型在国际数学奥林匹克（IMO）竞赛中取得了金牌水平的成绩，这一消息引发了广泛关注。该模型在严格遵循人类选手比赛规则的条件下，成功解决了2025年IMO六道题目中的五道，获得了35分（满分42分）的成绩。每道题目由三位前IMO奖牌获得者独立评分，最终分数在达成一致后确定。这一成绩不仅展示了模型在数学推理方面的强大能力，也标志着AI在复杂问题解决领域的重大突破。

然而，数学家陶哲轩对此提出了谨慎的看法。他指出，如果没有严格控制、标准化的测试条件，AI模型与人类的表现无法进行有意义的比较。他通过比喻说明，改变竞赛的形式可能会显著影响学生的成功率，因此，人们应警惕将不同AI模型在IMO中的表现进行“同类比较”。陶哲轩还强调，对于任何未在赛前披露其方法论的、自我报告的AI竞赛表现结果，他将不予置评。

网友对此展开了广泛讨论。有人指出，OpenAI的模型在训练期间可能已经记住了整个互联网的语料，即使不调用工具，与无法访问互联网的人类学生相比也不够公平。但也有人认为，AI已经能够在“难以验证”的领域进行超过一个小时的推理并给出正确答案，这一进展本身值得关注。OpenAI推理研究主管Noam Brown也提到，他们还有很大的空间来进一步提升测试时的计算能力和效率。

OpenAI的这一成就不仅展示了其在AI推理能力上的突破，也为其在技术前沿的地位提供了有力支持。领导这一项目的Alexander Wei专注于LLM的推理能力提升，特别是在数学推理和自然语言证明生成方面。他的研究背景和成就为这一项目提供了坚实的理论基础和实践经验。

总的来说，OpenAI的这一成果不仅标志着AI在数学推理领域的重大进展，也引发了关于AI模型与人类表现比较的深入思考。尽管存在争议，但这一成就无疑为AI技术的发展开辟了新的可能性。