上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026
文章摘要
【关 键 词】 图像生成、扩散模型、动态引导、生成分布、机制驱动
当前生成式人工智能虽具备强大生成能力,但在稳定性与可控性方面仍面临挑战。扩散模型在不同生成阶段对条件信息的依赖程度存在差异,而传统方法默认引导强度固定,导致生成结果与真实分布存在偏差。针对这一深层矛盾,上海交通大学与 vivo BlueImage Lab 研究团队提出 C²FG 方法,通过分析分数差异实现动态引导控制。研究证实生成模型的发展正从规模驱动走向机制驱动,精确理解生成过程内部机制比单纯扩大模型更为关键。
在实验验证环节,该方法在 ImageNet 任务上显著优化了生成结果,FID 从 2.29 降至 2.07,Inception Score 从 276.8 提升至 291.5,且未牺牲多样性。即使在性能已接近上限的强模型基线上,C²FG 仍能进一步降低 FID 并提升生成质量,表明误差来源主要集中在引导机制而非网络表达能力。在高分辨率生成及文本生成图像任务中,该方法同样展现出稳定的改进效果,且在推理步数减少的低计算预算场景下,动态引导的优势更为明显。实验数据表明,随着模型不断逼近极限,误差来源越来越集中在机制层面,而不是网络本身。
研究团队构建了逐层验证的实验设计框架,从机制、分布、性能、泛化及极限五个维度证实了方法的有效性。观察发现,扩散过程早期条件与无条件信息差异较小,后期差异迅速增大,固定引导强度无法匹配这种动态变化。C²FG 的作用不是简单地把引导变大或者变小,而是自动匹配这种随时间变化的差异,使整个生成过程更符合真实的扩散动态。 这项研究修正了对扩散本质的理解,证明未来提升生成模型效果可通过重新设计引导机制实现。对于实际应用而言,这意味着生成工具可能变得更快、更稳,用户更容易一次得到自然合理的结果,无需反复修改重试。通过二维玩具实验进一步展示,传统方法会产生偏离目标分布的异常样本,而新方法生成分布更贴近真实分布,改进体现在整体概率分布的正确性上。
原文和模型
【原文链接】 阅读原文 [ 3275字 | 14分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3.5-397b-a17b
【摘要评分】 ★★★☆☆



