川大雷印杰团队论文:用现实物理规律「重写」视频生成方式丨CVPR 2026
文章摘要
【关 键 词】 物理一致性、事件链建模、关键帧约束、因果逻辑、物理规律约束
研究采用CogVideoX-5B作为基础生成模型,结合GPT-OSS-20B进行语言推理,Qwen-Image负责关键帧生成。流程包括文本理解→物理规律识别→事件分解(如蜂蜜倒入分为“接触杯壁→液面升高→体积积累”)→语义提示整合→关键帧绘制→插值过渡→扩散模型生成完整视频。整个过程将连续演化拆解为离散事件序列,实现对时间顺序与空间关系的显式控制。
在PhyGenBench数据集上,新方法得分达0.66,较最优对比方法PhysHPO(0.61)提升0.05;与Kling(0.49)、Gen-3(0.51)、CogVideoX(0.45)相比,性能优势显著,相对提升超30%。各物理子类中,力学(0.67)、光学(0.72)、热学(0.65)表现领先,仅材料方向略逊但维持高位。细粒度分析显示,其物理顺序正确性指标提升尤为明显——如DiffPhy在力学任务中顺序正确率仅0.53,本方法达到0.79,提高0.26;光学场景则由0.66升至0.85,提升0.19。在VideoPhy数据集中,语义+物理双重正确率49.3%,优于此前最高水平45.9%;相较CogVideoX提升9.7%,其中流体相关任务增幅超10%,体现连续动态建模能力的突破。
消融实验表明关键帧机制贡献最大,去掉后性能下降17%;事件分解模块次之,影响约11%;物理公式模块与渐进生成模块影响分别约为6%和3%。事件数量存在最优区间,4个事件时效果最佳,5~6个则因误差累积而回落,说明结构复杂度需与稳定性平衡。
该工作推动视频生成从“结果导向”进入“过程建模”阶段,使系统能自动遵循物理规律演进,而非依赖模式匹配生成近似合理画面。这一范式变革为教育演示、游戏仿真、自动驾驶训练等场景带来新可能,可实现更真实的动态内容呈现。研究也指出当前瓶颈在于多物理耦合场景(如牛顿摆叠加水爆)中的推理失效问题,为未来发展指明方向。
研究团队构建事件链结构,通过PEC R模块将完整物理过程拆分为多个连续事件;模型基于物理公式引入约束,确保生成过程不脱离真实规律;关键帧机制保障中间过渡稳定,避免画面跳变;分领域评估显示方法在力学、光学、热学三项中位居首位,顺序正确性显著优于基线;消融实验表明事件分解与关键帧生成是性能提升的核心支撑。
原文和模型
【原文链接】 阅读原文 [ 3342字 | 14分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★



