Transformer推理天花板被谷歌打破？DeepMind首席科学家亮出84页PPT，却遭LeCun反对

2,023 0 0

文章摘要

CoT（Chain of Thought）作为一种新兴的人工智能技术，已经在自然语言处理（NLP）领域引起了广泛关注。CoT的核心思想是通过在模型的输入和输出之间插入一系列推理步骤，来增强模型的推理能力。这一技术在OpenAI的o1模型中得到了应用，使得模型在复杂推理任务上表现出色，甚至在某些方面超越了人类。

谷歌DeepMind的首席科学家Denny Zhou在其论文中提出，通过CoT，Transformer模型可以解决任何问题，只要允许它们生成足够多的中间推理token。这一观点得到了一些学者的支持，他们认为CoT为LLM（大型语言模型）的推理能力提供了新的可能性，甚至可能成为通往人工通用智能（AGI）的关键。

然而，这一观点也遭到了一些质疑。田渊栋和LeCun等学者认为，CoT的作用被夸大了。他们指出，虽然CoT在理论上可以模拟任意大小的布尔电路，但在实际应用中，模型的推理链可能会非常长，这给模型的训练和学习带来了挑战。此外，他们还指出，人类的推理过程是简洁的，而LLM是否能够在短时间内学习或构建出这样的简洁表征，仍然是一个未解之谜。

尽管存在争议，但CoT技术的发展仍然具有重要意义。它不仅能够提高模型在特定任务上的表现，还可能为未来的AI研究提供新的思路。Denny Zhou在其讲座中强调，推理能力是人类学习的关键，而CoT正是通过在数据中包含中间步骤，来增强模型的推理能力。他还指出，虽然CoT技术在某些方面存在局限性，但通过不断优化和改进，它仍然具有巨大的潜力。

总的来说，CoT技术在AI领域的发展仍然充满挑战，但它也为未来的研究提供了新的方向。随着技术的不断进步，我们有理由相信，CoT将在未来的AI发展中发挥越来越重要的作用。