加速200倍,单显卡1.8秒生成5秒高清视频!清华与Vidu解开了视频扩散模型的速度枷锁

AIGC动态3小时前发布 AIGCOPEN
53 0 0
加速200倍,单显卡1.8秒生成5秒高清视频!清华与Vidu解开了视频扩散模型的速度枷锁

 

文章摘要


【关 键 词】 视频生成AIGC模型加速扩散模型实时渲染


TurboDiffusion技术通过稀疏注意力、蒸馏量化和硬件优化,将视频生成速度提升至实时水平。传统视频扩散模型因计算复杂度高而效率低下,尤其在处理时间连贯性时面临指数级计算量增长。该研究通过改造Transformer架构的注意力机制,引入SageAttention和稀疏线性注意力(SLA),将计算复杂度降至线性。同时,采用8位整数量化(W8A8)策略,结合块级粒度优化,显存占用减少50%。

步数蒸馏技术(rCM)是另一项关键突破。它使模型能够一步跨越传统多步去噪路径,显著提升推理效率。训练流程中,团队将全注意力替换为SLA,并通过rCM蒸馏压缩采样步数,最终合并参数更新。推理阶段进一步整合SageSLA实现、INT8量化和定制算子优化,使480P视频生成速度从166秒缩短至1.8秒,加速比达93倍。

硬件协同设计带来额外性能飞跃。针对NVIDIA Tensor Core的INT8计算优化,以及Triton/CUDA算子重构,使720P模型加速比高达205倍。测试数据显示,TurboDiffusion在Wan2.1-T2V-1.3B等模型上均超越FastVideo等现有方案,且画质无损。例如,5秒720P视频生成仅需原耗时1/119至1/205,用户几乎感知不到延迟。

技术落地验证了理论优势。实验覆盖1.3B至14B参数规模的模型,证明该方法具备泛化性。生成的视频在光影、纹理和动作连贯性上与原模型无显著差异,打破了“加速必损质量”的固有认知。团队计划在后续技术报告中公开更多训练细节,为AIGC开发者生态提供实用工具链。

原文和模型


【原文链接】 阅读原文 [ 1435字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...