超越IMO金牌？谷歌创超难FirstProof数学挑战新纪录

AIGC动态2个月前发布 almosthuman2014

267 0 0

文章摘要

去年7月的IMO数学奥林匹克竞赛中，两大AI公司争夺金牌的闹剧引发关注：OpenAI因绕过官方竞赛规则提前官宣遭到广泛吐槽，谷歌DeepMind的Gemini进阶模型成为首个获得奥赛组委会官方认定为金牌的AI系统。而竞赛与真正的数学研究之间，仍然存在一道明显的分界线。此后，AI智能体飞速发展，解决数学问题的能力不再仅依赖推理能力，已可开展顶尖数学家都棘手的数学研究。

由谷歌DeepMind开发、Gemini 3 Deep Think驱动的最新数学研究智能体Aletheia，在首届FirstProof挑战中创下最佳纪录：在无任何人工干预的情况下，于规定时间内自主解决10道高难度研究问题中的6道。曾带队实现AI IMO金牌成绩的DeepMind超人类推理方向负责人Thang Luong表示，这一成果的分量超过去年AI在IMO测试中获得金牌的表现。FirstProof是专为评估AI数学研究能力设计的实验性挑战，题目均来自真实科研过程中的未公开命题，由领域专家按接近论文审稿的标准人工审阅，测试AI在陌生问题上的长期推理与结构构造能力。研究团队运行两个底层基础模型不同的Aletheia版本，综合多数专家评审意见，两者共同解决6道题（其中第8题专家评价存在分歧），另外4道题未找到解答；且Aletheia具备自我筛选机制，准确率相比2025年12月的版本有明显提升。

当前AI系统虽无法全面承担数学研究的所有环节，但已在证明与验证环节发挥作用。未来的研究场景或许会发生变化。人类研究者提出方向与核心思想，AI负责高强度的路径搜索与形式化验证，再由人类进行理论整合与升华。这种协作模式，正在逐渐成形。数学作为人类理性能力的高地，AI已在此取得实质性突破，这也引发对未来数学论文作者名单中AI身份的思考。