DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录

DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录

 

文章摘要


【关 键 词】 人工智能数学证明形式验证智能体蓝图生成

随着人工智能在数学领域的产出速度远超人类的验证能力,数学界正面临验证危机。利用形式化定理证明让机器验证生成的证明,成为解决该危机的核心路径。针对现有系统成本高的问题,普林斯顿大学团队提出了Goedel-Architect智能体框架,基于DeepSeek-V4-Flash模型大幅降低了计算成本。

Goedel-Architect的核心创新在于引入“蓝图”机制与蓝图精炼策略。与传统递归分解不同,该系统在证明前生成一张包含引理及依赖关系的有向无环图作为全局视图,允许证明器并行处理节点。当证明失败时,系统会生成诊断报告:若命题有误,则提取反例原因并修正陈述;若证明过于复杂,则将节点拆分为更易处理的子节点。这使得证明过程能在已完成部分的基础上持续迭代。

在性能方面,Goedel-Architect在多个数学基准测试中展现出卓越能力与极高成本效益。在PutnamBench测试集上,该系统以不到300美元的成本实现75.6%的通过率,超越了耗资约17万美元的Hilbert系统。此外,该系统解决了MiniF2F-test全部244道题目,并在USAMO 2026等最新竞赛题中表现优异。对于具有非局部结构的难题,引入自然语言证明辅助后,系统能成功突破推导瓶颈。

实验表明,性能提升主要源于全局蓝图策略的流水线设计,而非单纯依赖底层模型。该策略有效避免了在死胡同中循环的问题,允许系统根据局部失败调整整体策略。这项研究通过极低成本的开源框架达到了昂贵闭源系统的证明水平,显著降低了形式化证明的访问门槛,为构建可信的AI数学输出基础设施提供了重要支撑。

原文和模型


【原文链接】 阅读原文 [ 3093字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★★

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...