大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点

文章摘要
【关 键 词】 语言模型、视频预测、人工智能、认知能力、逆向工程
加州大学伯克利分校副教授Sergey Levine近期提出一个核心疑问:为何语言模型通过预测下一个token能获得强大认知能力,而视频模型通过下一帧预测却收效甚微。这一思考引发了对人工智能发展路径的深层探讨。他认为当前大语言模型(LLM)本质上是对人类思维的间接”扫描”,如同柏拉图洞穴寓言中观察影子的人,仅通过互联网文本这一”投影”逆向推导思维过程,而非真正理解世界。
语言模型的成功与视频模型的困境形成鲜明对比。尽管视频数据包含更丰富的物理世界信息,但视频预测模型始终未能展现出类似语言模型的复杂推理能力。Levine指出,语言模型通过分析人类生成的文本数据,实际上绕过了直接学习物理世界的过程,转而复制了人类已有的认知表征。这种”捷径”解释了为何语言模型在缺乏直接物理经验的情况下,仍能表现出色——它们本质上是在重构人类思维的结果,而非思维形成的过程。
这一发现揭示了当前AI发展的根本性局限。通过文本数据训练的模型虽然能模仿人类认知技能,却难以像人类那样从原始经验中自主形成新认知。Levine将这种差异类比为”大脑扫描仪”与真实学习能力的区别:前者复制现有思维模式,后者具备真正的适应性和创造性。这种局限性在需要物理世界理解的场景(如机器人探索)中尤为明显。
研究同时指出了AI未来发展的关键方向。要实现真正类人的通用智能,系统必须突破当前依赖文本中介的模式,建立从物理经验中自主获取表征的能力。近期康奈尔大学关于嵌入空间几何的研究或许提供了新思路,但核心挑战仍在于如何连接现象与概念的本质关联。这一讨论不仅关乎技术路径选择,更触及智能本质的理解——是满足于高效模仿,还是追求真正的认知涌现,将成为塑造AI未来的分水岭。
原文和模型
【原文链接】 阅读原文 [ 3130字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆