谷歌给「AI解数学题」神话降温:能摘低垂果实,但过程依然痛苦

谷歌给「AI解数学题」神话降温:能摘低垂果实,但过程依然痛苦

 

文章摘要


【关 键 词】 数学研究人工智能Erdős问题文献挖掘算法验证

谷歌近期利用Gemini人工智能系统对Erdős Problems数据库中700个未解决问题进行了系统性研究,取得了显著进展。研究团队开发了名为Aletheia的定制数学研究智能体,通过半自动探索发现了13个有意义的解决方案。这些成果分为四类:5个由AI自主提出的全新解法,3个部分解决的子问题,3个独立重发现的已有解法,以及5个从文献中识别出的被遗漏解答。

研究方法采用了严格的验证流程,包括自然语言验证器初步筛选、非专家数学家快速过滤和领域专家严审三重机制。在约200个候选解中,仅有6.5%真正回答了Erdős原始问题,68.5%存在根本性错误,其余则因误读题意而数学意义有限。这一过程揭示了AI辅助数学研究的真实成本:大量时间消耗在核验、纠错和文献排查上,远超过少数成功案例所展示的效率。

研究特别关注了Erdős-1051问题的解决方案,认为这是AI系统自主解决具有普遍数学意义开放问题的早期案例。该方案采用了经典思路但未直接受前人启发,经过进一步推广已形成研究论文。然而作者强调,这些成果的数学难度大多相当于研究生习题水平,任何相关领域专家都能轻松完成。

研究揭示了AI数学发现中的关键挑战:问题陈述的误解、文献溯源困难以及”潜意识抄袭”风险。许多技术正确的解决方案源于对题意的不同解读,而确认解答是否已在文献中出现往往比验证正确性更具挑战性。随着AI生成数学内容的增多,学术界需要建立机制来应对这些新问题。

这项研究虽然展示了AI在识别”低垂果实”方面的潜力,但作者呼吁避免过度夸大其数学意义。真正的价值在于AI可能加速数学发现中的注意力瓶颈环节,而非替代人类研究。研究团队建议未来工作应更关注题意一致性与文献溯源的严谨性,同时警惕社交媒体对AI数学能力的夸大宣传可能对学术界造成的误导。

原文和模型


【原文链接】 阅读原文 [ 2306字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...