中山大学梁小丹团队论文:让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026
文章摘要
【关 键 词】 物理建模、视频生成、世界模拟、视觉语言、因果推理
ProPhy 方法致力于提升视频生成模型在物理一致性方面的表现,使其不仅在视觉上逼真,更在物理逻辑上可信。当前视频生成模型虽已大幅提高图像质量,但在动态交互场景中常出现违反基本物理规律的行为,如物体穿透、动力缺失或运动不连贯。研究指出,问题根源在于模型缺乏对物理因果关系与空间约束的显式建模能力,而非数据不足。
为解决此问题,中山大学梁小丹团队提出 ProPhy(Progressive Physical Alignment for Dynamic World Simulation),通过分层对齐机制,将物理信息从全局语义逐步细化至局部空间。该方法构建了一条从文本语义到空间物理建模的完整链路:首先由语义级物理模块 SEB 提取整体物理先验;继而经细粒度模块 REB 在 token 层实现空间层面的物理标注;最终借助视觉语言模型(VLM)提供监督信号,增强模型对“物理现象发生在何处”的识别能力。整个训练流程包含三个目标函数(Lcoarse、Lfine-align、Lfine-balance),分别保障语义一致、空间对齐与专家均衡使用。
实验表明,引入 ProPhy 后,不同规模模型在 VideoPhy2 评测体系中的综合指标 Joint 显著提升——Wan2.1 上从 24.8 提升至 26.5,CogVideoX 上从约 22.3 升至 26.7;尤其在高难度 HARD 子集上,Joint 得分亦取得显著进步。定量结果显示,物理合理性(PC)是主要改善项,SA 仅小幅上升,说明 ProPhy 的核心价值在于弥补物理建模短板,而非强化文本理解能力。定性分析中,模型成功学习了接触导致扬尘、动量传递碰撞等因果逻辑,避免了穿插、悬空等不合常理现象。
进一步,该研究推动人工智能从“视觉拟合”向“世界模拟”演进,标志着生成模型正从单纯复现外观迈向结构化理解世界机制。其应用前景广阔,可赋能机器人仿真训练、自动驾驶场景生成、教育演示与数字孪生系统。但当前方案仍依赖 VLM 的监督标注,存在噪声风险;且知识多以表层模式聚合,尚未完全基于物理方程进行推导,因此仍有待向严格因果建模方向拓展。
模型擅长生成看起来像真实世界的画面,却并不真正理解现实世界是如何运作的。
这一转变对于未来的智能系统具有基础性意义,因为只有当模型能够在动态过程中遵循基本规律时,才有可能被用于更复杂的任务。
研究表明,ProPhy 的主要作用并不在于提升对文本的理解能力,而是在于增强物理正确性。
这种能力对于未来技术的发展具有重要意义,例如在机器人训练中,可以通过生成更符合物理规律的环境来提高学习效果。
原文和模型
【原文链接】 阅读原文 [ 4955字 | 20分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★



