谢赛宁团队用RAE实现从8%到84%的飞跃,宣告VAE时代结束

AIGC动态9小时前发布 AIGCOPEN
46 0 0
谢赛宁团队用RAE实现从8%到84%的飞跃,宣告VAE时代结束

 

文章摘要


【关 键 词】 计算机视觉生成模型自编码器扩散模型表征学习

谢赛宁团队提出的表征自编码器(RAE)架构在图像生成领域取得重大突破,将ImageNet图像生成的FID指标提升至1.13,标志着传统变分自编码器(VAE)时代的终结。这项研究通过整合最先进的表征学习成果与生成模型框架,解决了长期困扰扩散模型的核心瓶颈问题。

传统VAE组件存在三方面根本性缺陷:基于卷积网络的架构效率低下、过度压缩导致信息损失严重、表征能力薄弱。实验显示,SD-VAE在ImageNet上的线性探测准确率仅8%,而现代自监督学习方法可达80%以上。这种语义理解能力的代际差距,直接制约了生成模型的质量上限。RAE的创新在于直接采用预训练视觉表征模型(DINOv2、SigLIP2、MAE)作为冻结编码器,仅需训练适配的解码器。这种设计使RAE继承顶级视觉模型的语义理解能力,DINOv2-B编码器实现84.5%的线性探测准确率,同时计算效率提升显著——编码器和解码器的GFLOPs分别仅为SD-VAE的1/6和1/3。

高维潜在空间带来新的技术挑战。研究发现扩散模型宽度必须匹配潜在表示维度,传统DiT架构无法有效处理RAE的768维token。团队提出三项关键创新:动态噪声调度策略根据”有效数据维度”调整噪声强度;解码器训练时主动注入高斯噪声增强泛化能力;开发DiTDH架构通过分离基础处理与去噪模块,在计算量仅增40%的情况下实现模型有效宽度扩展。最终DiTDH-XL以1.13的FID刷新纪录,训练速度较VAE基线快47倍。

这项研究突破了生成模型的技术范式。通过解耦表征学习与生成过程,RAE支持模块化升级——256×256扩散模型只需更换解码器即可生成512×512图像。这为高分辨率合成开辟了新路径,同时揭示了预训练表征模型在生成领域的巨大潜力。研究团队指出,未来可探索更丰富的表征编码器组合,以及跨模态表征在统一生成框架中的应用,这将进一步推动AIGC技术的发展边界。

原文和模型


【原文链接】 阅读原文 [ 3282字 | 14分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...