世界模型的GPT时刻：距离物理AGI出圈，还有多远？

64 0 0

文章摘要

世界模型在人工智能领域正迅速升温，其核心不仅在于高质量的视频生成，更在于具备可交互性以及维护物理世界状态的能力。与关注画面质感和叙事感的纯视频生成模型不同，世界模型需要识别空间物体的物理量并基于动作指令预测未来演变。这一方向的爆发得益于扩散模型等生成技术的重大突破，以及大语言模型发展带来的算力、数据和基础设施等资源的溢出效应，推动其成为物理人工智能的下一个核心战场。

在具身智能场景中，世界模型主要扮演数据生成引擎和具身大脑两个关键角色，有效弥补了真实长尾数据稀缺和视觉语言动作模型泛化性不足的短板。针对技术路线，纯视频生成面临算力消耗大和物理幻觉等瓶颈，而结合三维重建与物理引擎的神经物理混合路线，以及生成加重建的折中方案，正成为解决新视角一致性和物理规律合规性的有效探索。此外，第一人称视角数据因天然携带意图与动作的因果链而具备更高价值，但多模态异构数据的采集难度和噪声控制仍是亟待解决的工程难题。

当前行业尚未形成统一的评测标准，视觉质量并非唯一衡量维度，可交互性和物理规律的遵循程度是在实际交互中评估世界模型能力的最关键且最易被忽视的指标。面向未来，世界模型面临自进化能力、评测体系设计以及面向物理世界的专用基模型预训练等被低估的核心挑战。随着技术演进与尺度定律的持续作用，世界模型与视觉语言动作模型在统一架构和理解生成一体化框架下将走向深度融合，最终实现对物理世界的全面建模与精准状态表征。