谷歌发布Imagen 3，超过SD3、DALL・E-3

AIGC动态2年前 (2024)发布 AIGCOPEN

2,445 0 0

文章摘要

【关键词】 文本到图像、潜空间扩散、Imagen 3、高分辨率、AIGC

谷歌DeepMind发布的Imagen 3模型在文本到图像生成领域取得了显著进步，相较于前代产品及同类产品展现出了卓越的性能。Imagen 3采用了潜空间扩散模型技术，这一技术允许模型在压缩的表示形式中操作，从而更高效地处理高分辨率图像。与传统扩散模型相比，Imagen 3在文本语义还原、色彩搭配、文本嵌入、图像细节和光影效果等方面都有大幅度提升。

潜空间扩散模型的核心在于将数据视为随时间演变的动态过程，从清晰状态向混沌状态过渡，再逆转这一过程，从噪声中恢复出清晰的数据图像。这一逆过程不仅提升了图像生成质量，还在处理复杂文本提示时表现出色，同时为模型提供了更多的创新空间，能够根据文本描述创造出全新的视觉内容。

Imagen 3在大规模数据集上进行了预训练，学习图像内容和文本描述之间的复杂关联，并通过多阶段的扩散过程学习在潜空间中表示图像和文本。在评估过程中，Imagen 3在GenAI – Bench数据集上的表现优于DALL・E 3、Midjourney v6、SD3和Stable Diffusion XL 1.0等模型，尤其在提示-图像对齐方面展现出极强的能力，能够准确地将输入的文本提示转化为相应的图像内容。

Imagen 3的技术优势主要体现在三个方面：首先，它极大地提升了图像的生成质量，能够在保持图像细节的同时生成高分辨率、高清晰度的图像；其次，潜空间扩散模型在处理复杂文本提示时表现出卓越的能力，能够捕捉文本中隐含的细微差别和深层含义；最后，逆向生成过程为模型提供了更多的创新空间，能够生成更加多样化和具有创新性的图像。

目前，Imagen 3已经在美国地区可以使用，谷歌计划未来持续扩大其使用范围。这一模型的发布不仅推动了文本到图像生成技术的发展，也为AIGC领域的专业社区和开发者生态带来了新的机遇和挑战。随着Imagen 3等先进模型的不断涌现，AIGC领域的市场研究和应用落地将更加深入和广泛。