文章摘要
【关 键 词】 扩散模型、推理加速、缓存策略、固定预算、多步去噪
近年来,以FLUX和Wan为代表的扩散生成模型在图像和视频生成领域表现出色,但多步去噪过程导致推理算力成本高昂,严重拖慢响应速度。现有的步级缓存技术虽能复用中间特征以减少模型调用,但依赖启发式阈值的方法存在计算量不可控和局部决策无法保证全局最优的问题。针对这一痛点,西湖大学AGI实验室提出了一种面向固定计算预算的扩散模型步级缓存方法BudCache。
BudCache的核心创新在于将步级缓存转化为预算约束下的离散优化问题。该方法预先固定模型的实际前向计算次数,并通过离线搜索确定该预算下的最优缓存策略,从而严格控制推理成本并保障生成质量。在具体实现上,研究采用二进制掩码表示缓存策略,并结合模拟退火与爬山算法的混合搜索策略,在全局探索与局部精修中寻找高质量的缓存方案。此外,通过引入时间步校准模块,对采样时间步进行轻量级离线优化,使缓存采样器的输出更接近完整计算结果。
实验结果表明,BudCache在主流图像与视频生成模型上均展现出显著优势。在相同推理预算下,BudCache不仅在文字生成和复杂结构保留上更加稳定,还在视频生成中实现了更快的推理速度与更优的重建质量。例如在Wan模型上,其推理时间大幅缩短,同时在多项图像质量评估指标上超越了现有的启发式缓存方法。泛化性实验进一步证实,离线搜索得到的缓存策略能够成功迁移至不同求解器、分辨率和分类器自由引导尺度等多样化设置中,未出现对单一配置的过拟合现象。
总体而言,BudCache将步级缓存从启发式阈值触发推进至固定预算下的策略搜索,为扩散模型提供了一种无需重新训练且部署友好的推理加速方案。该方法在严格控制计算开销的同时,有效维持了生成内容的语义一致性与细节丰富度,为高效图像与视频生成开辟了新的技术路径。
原文和模型
【原文链接】 阅读原文 [ 2881字 | 12分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★★



