超越IMO金牌?谷歌创超难FirstProof数学挑战新纪录
文章摘要
【关 键 词】 AI数学、数研突破、人机协作、IMO竞赛、智能推理
去年7月的IMO数学奥林匹克竞赛中,两大AI公司争夺金牌的闹剧引发关注:OpenAI因绕过官方竞赛规则提前官宣遭到广泛吐槽,谷歌DeepMind的Gemini进阶模型成为首个获得奥赛组委会官方认定为金牌的AI系统。而竞赛与真正的数学研究之间,仍然存在一道明显的分界线。此后,AI智能体飞速发展,解决数学问题的能力不再仅依赖推理能力,已可开展顶尖数学家都棘手的数学研究。
由谷歌DeepMind开发、Gemini 3 Deep Think驱动的最新数学研究智能体Aletheia,在首届FirstProof挑战中创下最佳纪录:在无任何人工干预的情况下,于规定时间内自主解决10道高难度研究问题中的6道。曾带队实现AI IMO金牌成绩的DeepMind超人类推理方向负责人Thang Luong表示,这一成果的分量超过去年AI在IMO测试中获得金牌的表现。FirstProof是专为评估AI数学研究能力设计的实验性挑战,题目均来自真实科研过程中的未公开命题,由领域专家按接近论文审稿的标准人工审阅,测试AI在陌生问题上的长期推理与结构构造能力。研究团队运行两个底层基础模型不同的Aletheia版本,综合多数专家评审意见,两者共同解决6道题(其中第8题专家评价存在分歧),另外4道题未找到解答;且Aletheia具备自我筛选机制,准确率相比2025年12月的版本有明显提升。
当前AI系统虽无法全面承担数学研究的所有环节,但已在证明与验证环节发挥作用。未来的研究场景或许会发生变化。人类研究者提出方向与核心思想,AI负责高强度的路径搜索与形式化验证,再由人类进行理论整合与升华。这种协作模式,正在逐渐成形。数学作为人类理性能力的高地,AI已在此取得实质性突破,这也引发对未来数学论文作者名单中AI身份的思考。
原文和模型
【原文链接】 阅读原文 [ 1691字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-seed-1-8-251228
【摘要评分】 ★★☆☆☆



