文章摘要
【关 键 词】 视频生成、开源框架、实时加速、清华大学、AI技术
清华大学TSAIL实验室与生数科技联合发布了开源视频生成加速框架TurboDiffusion,该框架通过多项核心技术实现了视频生成速度的显著提升。在几乎不影响生成质量的前提下,TurboDiffusion能够将视频生成速度提高100至200倍,使得AI视频生成从“分钟级”迈入“秒级”实时时代。
TurboDiffusion的核心优势在于其高效的加速能力。以1.3B大小的模型为例,生成5秒视频的时间从184秒缩短至1.9秒,速度提升约97倍。即使是14B规模的模型,生成5秒720P分辨率视频的时间也从4549秒大幅减少到38秒,加速效果达到119倍。此外,在高分辨率、长时长视频生成任务中,TurboDiffusion依然能保持卓越的加速表现,例如在Vidu模型上生成8秒1080P视频的时间从900秒降至8秒。
TurboDiffusion的四大核心技术包括SageAttention、Sparse-Linear Attention(SLA)、rCM步数蒸馏加速和W8A8 INT8量化。SageAttention通过低比特量化注意力机制优化计算效率,SLA则利用稀疏计算减少冗余,rCM步数蒸馏技术显著降低了采样步骤需求,而W8A8量化策略进一步提升了线性层的推理速度与能效。这些技术均由清华大学TSAIL团队自主研发,并在工业界得到广泛应用,例如SageAttention已被集成至NVIDIA Tensor RT等主流平台。
TurboDiffusion的开源为AI视频生成领域带来了重大突破,其易用性使得普通用户也能快速上手。用户可通过安装Python包、下载模型参数并运行推理脚本,轻松实现高质量视频生成。这一技术的推出不仅推动了AI视频生成的普及,也为内容创作工具的发展提供了新的可能性。
TurboDiffusion的发布标志着AI视频生成技术进入了一个全新的阶段,其高效的加速能力与开源特性将极大促进相关领域的创新与应用。
原文和模型
【原文链接】 阅读原文 [ 1943字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




