何恺明团队新作：删掉VAE和私有数据后，文生图竟然更强了

AIGC动态1天前发布 almosthuman2014

132 0 0

文章摘要

何恺明团队近期发布了一款极简像素空间文本生成图像模型，旨在打破当前主流方案依赖复杂组件的惯例。该模型摒弃了视觉自编码器、自适应层归一化条件注入、辅助损失函数以及强化学习对齐等复杂设计，纯粹依靠流匹配目标直接在像素上进行训练。其核心主张是将文本条件视为带有语义信息的上下文标记，从而使得文本生成图像与类别条件图像生成在架构、算力和数据量级上趋于一致。

在技术路线上，该模型选择了直接在像素空间进行去噪，而非采用主流的潜在扩散模型。这种像素空间直出的设计不仅消除了重建误差和额外训练阶段，还大幅降低了单步前向计算成本，同时保持了与潜在空间模型相当的图像质量。此外，模型提出了新型联合注意力架构，通过引入轻量级文本适配器并删除自适应层归一化分支，构建了一个更接近标准预归一化架构的简洁网络，在减少参数的同时提升了生成效果。

训练方面，该模型完全采用公开数据，并借鉴了大型语言模型的两阶段训练范式。通过先在大规模重标注数据集上进行预训练以获取广泛覆盖面，再使用高质量图文对进行微调以提升提示跟随能力，模型在图像质量和生成多样性之间取得了良好平衡。实验结果表明，仅有约六亿总参数的模型在多个评测基准上超越了参数量数倍于己的同类模型，展现出极高的性价比和训练效率。

尽管表现出色，该模型仍存在一定的局限性，包括像素空间的图像块伪影、高引导系数带来的视觉瑕疵、分辨率扩展的瓶颈以及在文字渲染和命名实体生成上的不足。该研究的成功验证了文本生成图像领域正在经历从单纯堆砌资源向提炼核心技术的范式转换，证明了在学术级算力和公开数据条件下依然能够构建出极具竞争力的基线模型。