苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃

AIGC动态23小时前发布 QbitAI
127 0 0
苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃

 

文章摘要


【关 键 词】 AI研究推理模型苹果论文模式匹配评估方法

苹果最新发布的大模型研究论文在AI领域引发广泛讨论,其核心观点直指当前推理模型的根本局限性。研究团队通过精心设计的四类可控谜题环境(汉诺塔、跳棋交换、过河问题和积木世界),系统评估了包括Claude 3.7和DeepSeek在内的主流推理模型表现。实验结果显示,所有模型在超过特定复杂度阈值后都会出现完全的性能崩溃,即使提供完整解决算法或充足计算资源也无法突破这一限制。

研究发现了三个关键现象区间:在低复杂度任务中,标准语言模型反而比具备”思考”机制的推理模型更高效准确;中等复杂度时,思考机制开始显现优势;而当复杂度继续提升,所有模型都会突然失效。更反常的是”推理努力反向缩放”现象——模型在接近崩溃临界点时会主动减少思考量,而非耗尽全部计算资源。对Claude 3.7的内部推理轨迹分析显示,模型在简单问题上存在”过度思考”,而在高复杂度任务中则完全无法生成正确解决方案。

研究特别指出模型表现与训练数据分布的高度相关性。例如在需要31步的汉诺塔任务中表现优异,却在仅需11步的过河问题上失败,暗示模型可能更多依赖模式记忆而非真正理解。当研究人员直接提供完整算法时,模型仍无法突破原有性能瓶颈,这强烈表明当前推理模型在符号操作和逻辑验证方面存在本质缺陷。

论文同时揭示了苹果在AI领域的战略困境。虽然呼吁建立更科学的推理评估体系,但公司内部的大模型研发进展明显落后于竞争对手。公开资料显示,其AI功能多次推迟发布,核心产品如新版Siri甚至无法按计划亮相。组织层面的原因包括决策滞后、资源投入不足,以及高管团队对AI研发模式的不适应。历史经验表明苹果往往选择后发制人策略,但在快速迭代的AI领域,这种策略能否再次奏效尚待观察。

该研究最终提出,仅通过最终答案评估推理能力具有误导性,需要建立包含中间步骤质量分析的评估框架。突破长程依赖和复杂规划瓶颈的新型推理机制,被认为是未来研究的重点方向。论文的发表既是对当前AI局限性的客观揭示,也反映了科技巨头在技术路线竞争中的复杂博弈。

原文和模型


【原文链接】 阅读原文 [ 3013字 | 13分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...