川大雷印杰团队论文：用现实物理规律「重写」视频生成方式丨CVPR 2026

116 0 0

文章摘要

研究采用CogVideoX-5B作为基础生成模型，结合GPT-OSS-20B进行语言推理，Qwen-Image负责关键帧生成。流程包括文本理解→物理规律识别→事件分解（如蜂蜜倒入分为“接触杯壁→液面升高→体积积累”）→语义提示整合→关键帧绘制→插值过渡→扩散模型生成完整视频。整个过程将连续演化拆解为离散事件序列，实现对时间顺序与空间关系的显式控制。

在PhyGenBench数据集上，新方法得分达0.66，较最优对比方法PhysHPO（0.61）提升0.05；与Kling（0.49）、Gen-3（0.51）、CogVideoX（0.45）相比，性能优势显著，相对提升超30%。各物理子类中，力学（0.67）、光学（0.72）、热学（0.65）表现领先，仅材料方向略逊但维持高位。细粒度分析显示，其物理顺序正确性指标提升尤为明显——如DiffPhy在力学任务中顺序正确率仅0.53，本方法达到0.79，提高0.26；光学场景则由0.66升至0.85，提升0.19。在VideoPhy数据集中，语义+物理双重正确率49.3%，优于此前最高水平45.9%；相较CogVideoX提升9.7%，其中流体相关任务增幅超10%，体现连续动态建模能力的突破。

消融实验表明关键帧机制贡献最大，去掉后性能下降17%；事件分解模块次之，影响约11%；物理公式模块与渐进生成模块影响分别约为6%和3%。事件数量存在最优区间，4个事件时效果最佳，5~6个则因误差累积而回落，说明结构复杂度需与稳定性平衡。

该工作推动视频生成从“结果导向”进入“过程建模”阶段，使系统能自动遵循物理规律演进，而非依赖模式匹配生成近似合理画面。这一范式变革为教育演示、游戏仿真、自动驾驶训练等场景带来新可能，可实现更真实的动态内容呈现。研究也指出当前瓶颈在于多物理耦合场景（如牛顿摆叠加水爆）中的推理失效问题，为未来发展指明方向。

研究团队构建事件链结构，通过PEC R模块将完整物理过程拆分为多个连续事件；模型基于物理公式引入约束，确保生成过程不脱离真实规律；关键帧机制保障中间过渡稳定，避免画面跳变；分领域评估显示方法在力学、光学、热学三项中位居首位，顺序正确性显著优于基线；消融实验表明事件分解与关键帧生成是性能提升的核心支撑。