苹果一篇论文把大模型圈子得罪了！“踩着”OpenAI、Meta大模型上位，Gary Marcus：早就说大模型不会推理！

1,676 0 0

文章摘要

苹果公司的六位AI研究人员发表了一篇论文，对当前领先的语言模型（LLM）进行了测试，以评估它们处理数学推理任务的能力。研究发现，即使是问题措辞的微小变化也会导致模型性能的显著下降，这表明这些模型依赖于模式匹配而非真正的逻辑推理。在测试中，添加不相关的信息会显著影响模型的答案，即使这些信息不应影响数学结果。例如，当在问题中引入与猕猴桃数量无关的细节时，如OpenAI的o1和Meta的Llama等模型会错误地调整最终总数。

研究人员指出，这种推理的脆弱性表明，这些模型没有使用真正的逻辑来解决问题，而是依赖于训练过程中学习到的复杂模式识别。他们发现，即使是简单的改变名称也可以改变结果，这对需要在现实世界中进行一致、准确推理的AI应用的未来来说是一个令人不安的潜在信号。所有测试的模型，从较小的开源版本到专有模型，如OpenAI的GPT-4o，在输入数据产生看似无关紧要的变化时，性能都会显著下降。

尽管论文提出了这些关键问题，但也受到了一些批评。一些网友对论文的逻辑性和目的提出质疑，认为论文没有清晰地定义“真正的推理”是什么，也没有引用其他文献来阐明这一点。此外，有网友指出，论文的结论与测试结果相矛盾，例如，测试模型之一的o1在性能下降上比其他模型更为稳健。还有网友担心近年来与人工智能相关的研究论文存在质量问题，认为这些论文的专业性不如其他主题的论文。

尽管存在争议，一些网友认为论文有一定的价值，因为它探索了模型的可靠性，这是生产中的重要因素。然而，也有人认为论文的推理联系牵强，缺乏与人类对比的基线。Gary Marcus，一位著名的AI研究员，也对论文发表了看法，他认为这种因干扰信息而推理失败的例子并不新鲜，并指出大模型无法进行足够抽象的形式推理。他强调，符号操作必须是AI发展的一部分，神经符号人工智能可能是继续发展的必要条件。