视觉生成的另一条路:Infinity 自回归架构的原理与实践

AIGC动态7小时前发布 ai-front
51 0 0
视觉生成的另一条路:Infinity 自回归架构的原理与实践

 

文章摘要


【关 键 词】 大语言模型视觉生成自回归模型扩散模型Scaling Law

以ChatGPT、DeepSeek为代表的大语言模型取得了巨大成功,但在视觉生成领域,扩散模型仍是主流方法。视觉自回归方法因其更好的scaling特性和统一理解与生成任务的潜力,正受到越来越多的重视。字节跳动商业化技术AIGC算法工程师韩剑在AICon 2025北京站的分享中,以被选为CVPR 2025 Oral的工作Infinity为例,详细介绍了自回归视觉生成的底层技术原理。

自回归模型得名于其预测token并迭代输入的特性,天然契合语言的离散序列特性。视觉信号没有天然的离散单位,需要将图像“翻译”成token,通过编码器压缩和解码器重建,将连续像素转化为离散符号。早期工作如iGPT直接以像素为token,但受限于分辨率;VQVAE引入矢量量化码本,显著减少token数;VQGAN进一步强化重建质量。然而,这些方法仍存在生成质量在高分辨率下落后于扩散模型、视觉离散token的Scaling Law未被系统验证等问题。

视觉自回归模型VAR采用“由粗到细”的思路,将图像拆成多级分辨率,从模糊小图逐级放大到清晰大图。具体实现上,VAR通过改进的VQ-VAE和定制的Transformer,将迭代次数压到传统逐点方式的十分之一。在ImageNet基准上,VAR首次在生成质量上超过DiT,并展现出清晰的Scaling曲线。扩散模型则是在原始分辨率上逐步添加高斯噪声,再反向去噪还原图像。LDM将这一思路引入条件生成,DiT进一步用Transformer替换U-Net,最终孕育了Sora。

Infinity方案解决了VAR从类别到图像扩展到文本到图像的三个主要障碍:离散VAE的重建质量、自回归的累积误差以及高分辨率和任意长宽比的支持。通过“bitwise tokenizer + bitwise classifier”,Infinity放弃了传统VQ的码本,直接对特征做符号量化,形成1-bit表示。词表大小随通道数指数增长,配合多级残差金字塔,16步即可覆盖1024×1024图像。为了抑制累积误差,Infinity引入Bitwise Self-Correction,显著拉低误差扩散。

Infinity在1024×1024上实现了与DiT可比甚至更优的FID,支持任意长宽比,推理速度比同量级DiT快3.7倍。后训练阶段通过DPO进一步提升画质和细节。实验显示,大模型值得用大词表,且验证集损失与人工指标呈高度线性相关,再次印证了Scaling的可靠性。

从VAR到Infinity,离散自回归的上限被大幅推进,已能在高分辨率文本到图像任务中与扩散模型正面竞争。新的tokenizer在保持离散表示的同时逼近连续VAE的重建质量,并能轻松扩展百万级词表,带来更细腻的纹理和更准确的指令遵循。

原文和模型


【原文链接】 阅读原文 [ 3121字 | 13分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...