图像编辑新神器:英伟达用拍电影思维解决图像编辑与世界模拟一致性难题

AIGC动态2小时前发布 AIGCOPEN
60 0 0
图像编辑新神器:英伟达用拍电影思维解决图像编辑与世界模拟一致性难题

 

文章摘要


【关 键 词】 AI图像编辑物理一致性视频生成模型优化

AI图像编辑领域长期面临物理一致性难题,特别是在物体移动或环境转换等复杂编辑任务中,传统方法容易产生违反物理规律的失真结果。 NVIDIA与多伦多大学联合提出的ChronoEdit框架创新性地将图像编辑重构为两帧视频生成问题,通过利用视频模型固有的时间连续性知识,显著提升了编辑结果的物理合理性。该框架将输入图像视为视频首帧,目标图像作为末帧,使模型能够预测符合现实规律的中间过渡状态。

物理一致性缺失是当前生成式编辑的核心缺陷。现有数据驱动方法虽能实现语义层面的修改,但常破坏物体的几何结构、材质属性或光影关系。例如车辆位移可能导致车身拉伸或阴影错位,反映出模型缺乏对物理运动本质的理解。ChronoEdit通过引入视频生成模型的时间先验,在编辑过程中强制保持物体身份与运动轨迹的连贯性,这对自动驾驶仿真等严肃应用至关重要。

技术实现上,ChronoEdit基于整流流视频生成架构,采用因果视频VAE处理时间结构。其关键创新在于时间推理token机制——在输入输出帧之间插入可学习的中间潜在表示,引导模型规划合理的物理变换路径。训练阶段联合使用140万条合成视频数据与图像编辑对,确保模型同时掌握语义对齐与时间连贯能力。数据集特别区分静态相机动态物体、动态相机静态场景等类别,避免视角变化干扰运动学习。

实验验证显示,140亿参数的ChronoEdit-14B在通用编辑基准ImgEdit上获得4.42分(满分5分),在强调物理现实的PBench-Edit基准中更达到4.53分。开启时间推理功能后,动作保真度指标提升尤为显著,证明显式建模过渡状态的有效性。优化后的ChronoEdit-14B-Turbo版本在保持94%性能的同时,将推理速度提升至单图5秒。可视化分析表明,模型能生成符合动力学的完整动作序列,如猫咪跃上长椅的渐进过程。

该研究通过跨模态迁移学习,首次系统性地将视频生成的时间建模能力注入图像编辑任务。其两阶段推理策略(前期使用时间token规划全局结构,后期专注细节优化)为平衡质量与效率提供了新范式。开源演示平台已上线Hugging Face,支持用户体验基于物理规律的交互式编辑。

原文和模型


【原文链接】 阅读原文 [ 3755字 | 16分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...