中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

51 0 0

文章摘要

ProPhy 方法致力于提升视频生成模型在物理一致性方面的表现，使其不仅在视觉上逼真，更在物理逻辑上可信。当前视频生成模型虽已大幅提高图像质量，但在动态交互场景中常出现违反基本物理规律的行为，如物体穿透、动力缺失或运动不连贯。研究指出，问题根源在于模型缺乏对物理因果关系与空间约束的显式建模能力，而非数据不足。

为解决此问题，中山大学梁小丹团队提出 ProPhy（Progressive Physical Alignment for Dynamic World Simulation），通过分层对齐机制，将物理信息从全局语义逐步细化至局部空间。该方法构建了一条从文本语义到空间物理建模的完整链路：首先由语义级物理模块 SEB 提取整体物理先验；继而经细粒度模块 REB 在 token 层实现空间层面的物理标注；最终借助视觉语言模型（VLM）提供监督信号，增强模型对“物理现象发生在何处”的识别能力。整个训练流程包含三个目标函数（Lcoarse、Lfine-align、Lfine-balance），分别保障语义一致、空间对齐与专家均衡使用。

实验表明，引入 ProPhy 后，不同规模模型在 VideoPhy2 评测体系中的综合指标 Joint 显著提升——Wan2.1 上从 24.8 提升至 26.5，CogVideoX 上从约 22.3 升至 26.7；尤其在高难度 HARD 子集上，Joint 得分亦取得显著进步。定量结果显示，物理合理性（PC）是主要改善项，SA 仅小幅上升，说明 ProPhy 的核心价值在于弥补物理建模短板，而非强化文本理解能力。定性分析中，模型成功学习了接触导致扬尘、动量传递碰撞等因果逻辑，避免了穿插、悬空等不合常理现象。

进一步，该研究推动人工智能从“视觉拟合”向“世界模拟”演进，标志着生成模型正从单纯复现外观迈向结构化理解世界机制。其应用前景广阔，可赋能机器人仿真训练、自动驾驶场景生成、教育演示与数字孪生系统。但当前方案仍依赖 VLM 的监督标注，存在噪声风险；且知识多以表层模式聚合，尚未完全基于物理方程进行推导，因此仍有待向严格因果建模方向拓展。

模型擅长生成看起来像真实世界的画面，却并不真正理解现实世界是如何运作的。
这一转变对于未来的智能系统具有基础性意义，因为只有当模型能够在动态过程中遵循基本规律时，才有可能被用于更复杂的任务。
研究表明，ProPhy 的主要作用并不在于提升对文本的理解能力，而是在于增强物理正确性。
这种能力对于未来技术的发展具有重要意义，例如在机器人训练中，可以通过生成更符合物理规律的环境来提高学习效果。