谷歌给「AI解数学题」神话降温:能摘低垂果实,但过程依然痛苦
文章摘要
【关 键 词】 数学研究、人工智能、Erdős问题、文献挖掘、算法验证
谷歌近期利用Gemini人工智能系统对Erdős Problems数据库中700个未解决问题进行了系统性研究,取得了显著进展。研究团队开发了名为Aletheia的定制数学研究智能体,通过半自动探索发现了13个有意义的解决方案。这些成果分为四类:5个由AI自主提出的全新解法,3个部分解决的子问题,3个独立重发现的已有解法,以及5个从文献中识别出的被遗漏解答。
研究方法采用了严格的验证流程,包括自然语言验证器初步筛选、非专家数学家快速过滤和领域专家严审三重机制。在约200个候选解中,仅有6.5%真正回答了Erdős原始问题,68.5%存在根本性错误,其余则因误读题意而数学意义有限。这一过程揭示了AI辅助数学研究的真实成本:大量时间消耗在核验、纠错和文献排查上,远超过少数成功案例所展示的效率。
研究特别关注了Erdős-1051问题的解决方案,认为这是AI系统自主解决具有普遍数学意义开放问题的早期案例。该方案采用了经典思路但未直接受前人启发,经过进一步推广已形成研究论文。然而作者强调,这些成果的数学难度大多相当于研究生习题水平,任何相关领域专家都能轻松完成。
研究揭示了AI数学发现中的关键挑战:问题陈述的误解、文献溯源困难以及”潜意识抄袭”风险。许多技术正确的解决方案源于对题意的不同解读,而确认解答是否已在文献中出现往往比验证正确性更具挑战性。随着AI生成数学内容的增多,学术界需要建立机制来应对这些新问题。
这项研究虽然展示了AI在识别”低垂果实”方面的潜力,但作者呼吁避免过度夸大其数学意义。真正的价值在于AI可能加速数学发现中的注意力瓶颈环节,而非替代人类研究。研究团队建议未来工作应更关注题意一致性与文献溯源的严谨性,同时警惕社交媒体对AI数学能力的夸大宣传可能对学术界造成的误导。
原文和模型
【原文链接】 阅读原文 [ 2306字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



