上交大 x vivo 团队：一个简单改动，让 diffusion 全面提升丨CVPR 2026

487 0 0

文章摘要

当前生成式人工智能虽具备强大生成能力，但在稳定性与可控性方面仍面临挑战。扩散模型在不同生成阶段对条件信息的依赖程度存在差异，而传统方法默认引导强度固定，导致生成结果与真实分布存在偏差。针对这一深层矛盾，上海交通大学与 vivo BlueImage Lab 研究团队提出 C²FG 方法，通过分析分数差异实现动态引导控制。研究证实生成模型的发展正从规模驱动走向机制驱动，精确理解生成过程内部机制比单纯扩大模型更为关键。

在实验验证环节，该方法在 ImageNet 任务上显著优化了生成结果，FID 从 2.29 降至 2.07，Inception Score 从 276.8 提升至 291.5，且未牺牲多样性。即使在性能已接近上限的强模型基线上，C²FG 仍能进一步降低 FID 并提升生成质量，表明误差来源主要集中在引导机制而非网络表达能力。在高分辨率生成及文本生成图像任务中，该方法同样展现出稳定的改进效果，且在推理步数减少的低计算预算场景下，动态引导的优势更为明显。实验数据表明，随着模型不断逼近极限，误差来源越来越集中在机制层面，而不是网络本身。

研究团队构建了逐层验证的实验设计框架，从机制、分布、性能、泛化及极限五个维度证实了方法的有效性。观察发现，扩散过程早期条件与无条件信息差异较小，后期差异迅速增大，固定引导强度无法匹配这种动态变化。C²FG 的作用不是简单地把引导变大或者变小，而是自动匹配这种随时间变化的差异，使整个生成过程更符合真实的扩散动态。 这项研究修正了对扩散本质的理解，证明未来提升生成模型效果可通过重新设计引导机制实现。对于实际应用而言，这意味着生成工具可能变得更快、更稳，用户更容易一次得到自然合理的结果，无需反复修改重试。通过二维玩具实验进一步展示，传统方法会产生偏离目标分布的异常样本，而新方法生成分布更贴近真实分布，改进体现在整体概率分布的正确性上。