语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

2,105 0 0

文章摘要

【关键词】 多模态AI、Transfusion模型、图像生成、文本生成、Transformer技术

Meta公司最新发布的Transfusion模型，成功实现了语言模型和图像生成的统一，为多模态AI模型的发展迈出了重要一步。Transfusion模型融合了Transformer和Diffusion技术，通过将语言建模与扩散相结合，实现了在混合模态序列上训练单个Transformer的目标。该模型在单模态和多模态基准测试中表现出色，具有更好的扩展性，能够生成高质量的图像和文本。

Transfusion模型的主要创新包括全局因果注意力和每个图像内的双向注意力，以及引入模态特定的编码和解码层，提高了性能并实现了图像压缩。实验结果表明，Transfusion模型在图像生成方面与类似规模的扩散模型相媲美，同时保持了强大的文本生成能力。此外，Transfusion模型在GenEval基准测试上超越了DALL-E 2和Stable Diffusion XL，显示出其生图质量非常高。

研究者还对Transfusion模型进行了图像编辑的微调，证明了模型能够适应并泛化到新的模态组合。Transfusion模型的成功训练为真正的多模态AI模型的实现提供了可能，这些模型可以无缝处理任何离散和连续模态的组合，如长篇视频生成、与图像或视频的交互式编辑/生成会话等。

Transfusion模型的架构主要由一个单一的Transformer组成，处理每个序列，无论模态如何。为了将数据转换到这个空间，研究者使用了具有不共享参数的轻量级模态组件。在训练过程中，研究者将语言建模目标应用于文本token的预测，将扩散目标应用于图像块的预测，通过合并这两种损失来训练模型。

在实验中，Transfusion模型与Chameleon模型进行了比较，结果显示Transfusion在不同模型规模和token计数下始终表现出更好的scaling law。此外，研究者还进行了架构消融实验，探讨了注意力掩码、块大小、块编码/解码架构和图像加噪等因素对模型性能的影响。

总之，Transfusion模型的提出为多模态AI模型的发展提供了新的可能性，其在图像和文本生成方面的优异表现，以及对不同模态的适应和泛化能力，为未来的多模态应用奠定了基础。