DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

AIGC动态1年前 (2024)发布 almosthuman2014

2,509 0 0

文章摘要

【关键词】 Diffusion Transformer、图像生成、多模态、跨模态生成、AI模型

本文报道了基于Diffusion Transformer（DiT）的新模型Flag-DiT，该模型由上海AI Lab、港中文和英伟达的研究者联合推出，旨在通过流（Flow-based）的大型扩散Transformers实现图像、视频、音频和3D对象的生成。Lumina-T2X系列模型包括具有70亿参数的Flag-DiT和130亿参数的多模态大语言模型SPHINX，后者能处理128K tokens。

Lumina-T2X系列模型的基础文本到图像模型Lumina-T2I利用流匹配框架，在高分辨率真实图像文本对数据集上进行训练，以较少的计算资源取得高质量的结果。Lumina-T2I能生成任意分辨率和宽高比的图像，并实现分辨率外推、高分辨率编辑、构图生成和风格一致生成等高级功能。

Lumina-T2X系列模型通过独立训练视频-文本、多视图-文本和语音-文本对，增强了跨模态的生成能力。例如，Lumina-T2V能生成任何宽高比和时长的720p视频，缩小了与Sora模型的差距。

Flag-DiT作为Lumina-T2X框架的主干，具有稳定性、灵活性和可扩展性。稳定性通过替换LayerNorm为RMSNorm和引入键查询归一化（KQ-Norm）来增强。灵活性方面，通过用RoPE替换APE来注入相对位置信息，以适应任意分辨率和比例的样本生成。可扩展性则是通过扩大参数大小和训练样本来实现。

Lumina-T2X的训练过程包括四个组件：不同模态的逐帧编码，使用多种文本编码器进行文本编码，以及利用Flag-DiT和SPHINX模型。目前，Lumina-Next-T2I模型已推出，并可在gradio上试玩。

文章提供了论文地址、GitHub地址、模型下载地址和试用地址，供读者进一步了解和体验Lumina-T2X系列模型。