谷歌给「AI解数学题」神话降温：能摘低垂果实，但过程依然痛苦

AIGC动态2小时前发布 almosthuman2014

51 0 0

文章摘要

谷歌近期利用Gemini人工智能系统对Erdős Problems数据库中700个未解决问题进行了系统性研究，取得了显著进展。研究团队开发了名为Aletheia的定制数学研究智能体，通过半自动探索发现了13个有意义的解决方案。这些成果分为四类：5个由AI自主提出的全新解法，3个部分解决的子问题，3个独立重发现的已有解法，以及5个从文献中识别出的被遗漏解答。

研究方法采用了严格的验证流程，包括自然语言验证器初步筛选、非专家数学家快速过滤和领域专家严审三重机制。在约200个候选解中，仅有6.5%真正回答了Erdős原始问题，68.5%存在根本性错误，其余则因误读题意而数学意义有限。这一过程揭示了AI辅助数学研究的真实成本：大量时间消耗在核验、纠错和文献排查上，远超过少数成功案例所展示的效率。

研究特别关注了Erdős-1051问题的解决方案，认为这是AI系统自主解决具有普遍数学意义开放问题的早期案例。该方案采用了经典思路但未直接受前人启发，经过进一步推广已形成研究论文。然而作者强调，这些成果的数学难度大多相当于研究生习题水平，任何相关领域专家都能轻松完成。

研究揭示了AI数学发现中的关键挑战：问题陈述的误解、文献溯源困难以及”潜意识抄袭”风险。许多技术正确的解决方案源于对题意的不同解读，而确认解答是否已在文献中出现往往比验证正确性更具挑战性。随着AI生成数学内容的增多，学术界需要建立机制来应对这些新问题。

这项研究虽然展示了AI在识别”低垂果实”方面的潜力，但作者呼吁避免过度夸大其数学意义。真正的价值在于AI可能加速数学发现中的注意力瓶颈环节，而非替代人类研究。研究团队建议未来工作应更关注题意一致性与文献溯源的严谨性，同时警惕社交媒体对AI数学能力的夸大宣传可能对学术界造成的误导。