第二代AI预训练范式:预测下个物理状态
文章摘要
【关 键 词】 AI技术、预训练范式、世界建模、多模态AI、机器人学
英伟达高级研究科学家Jim Fan近期提出,当前以大语言模型(LLM)为代表的第一代预训练范式存在局限性,尤其在应用于物理世界时表现不佳。他倡导转向第二代预训练范式——世界建模(World Modeling),即预测下一个物理状态。这一观点得到了纽约大学助理教授谢赛宁等学者的支持。
世界建模的核心在于通过动作约束预测物理世界的未来状态。视频生成模型是其实例之一,通过文本描述动作并预测RGB帧序列。这类模型本质上是可学习的物理模拟器,能够捕捉“反事实”——即不同动作导致的不同未来演变。与视觉语言模型(VLM)的“语言优先”逻辑不同,世界建模将视觉置于首位。VLM虽然通过编码器处理视觉信息,但视觉始终处于次要地位,参数分配更偏向知识而非物理理解。
从生物学角度,视觉主导了人类皮层计算,约三分之一的大脑皮层专门处理视觉信息,而语言仅占用较小区域。类人猿的例子进一步证明,高肢体智能并不依赖强大语言能力,而是基于对物理世界的心理图景。这一发现挑战了当前以语言为核心的AI设计思路。
Jim Fan指出,2025年主流的视觉-语言-动作(VLA)模型存在设计缺陷:其多阶段嫁接结构导致“头重脚轻”,过度侧重知识检索而忽视物理模拟。他呼吁回归简洁优雅的设计,直接通过视觉空间进行推理,例如通过几何模拟解决物理问题,而非依赖语言中介。
未来,预训练可能涵盖3D运动、触觉等多元感知数据,推理过程也将从语言空间转向视觉空间。然而,开放性问题依然存在:动作指令如何解码?像素重建是否最优目标?机器人数据规模如何确定?这些问题标志着AI研究正回归第一性原理探索,正如Ilya Sutskever所言,AGI尚未收敛,创新仍充满可能。
Jim Fan的论述引发了广泛共鸣,部分评论者认为这是“神经符号AI社区的胜利”。他的观点不仅重新审视了AI技术的基础假设,也为机器人学和多模态AI的发展提供了新方向。
原文和模型
【原文链接】 阅读原文 [ 1694字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆



