文本生成4K超高清图像，华为等推出创新模型PixArt-Σ

AIGC动态2年前 (2024)发布 AIGCOPEN

3,872 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

文章摘要

是由华为诺亚方舟实验室、大连理工大学和香港大学的研究人员推出的一款文本生成4K超高清图像的模型。与上一代PixArt-α相比，在图像质量、细节、训练效率以及文本语义理解等方面都有显著提升。其中，采用了DiT架构和高效的注意力模块来压缩Key和Value，通过局部聚合和特殊的权重初始化方案，使得模型能够更高效地生成4K分辨率图像。该模型的核心技术在于提出了一种”从弱到强“的训练方法，通过融入高质量的训练数据和高效Tokens压缩注意力模块，成功实现了从弱模型到强模型的高效演化。

高效Tokens压缩注意力机制是的关键技术之一，通过对Key和Value进行压缩，保留所有的Query，从而降低了计算复杂度。这种机制利用局部聚合操作和特殊的权重初始化方案，使得模型在生成4K图像时训练和推理的时间大幅缩减，节省了AI算力。另外，采用了从弱到强的训练策略，先从低分辨率开始逐步提升分辨率，避免了模型难以适应的问题，同时借助”位置嵌入插值“技术加速模型效率。

为了提升生成图像的质量和多样性，研究人员搜集了一个包含3300万张高分辨率图像的数据集Internal-Σ，其中包含了大量4K分辨率的图像。这些高分辨率图像为模型提供了更多样的风格和真实数据分布，同时采用了更强大的Share-Captioner模型来生成详细准确的图像文本描述。在生成图片方面展现出了优秀的质量、细节和语义还原能力，例如华丽的珊瑚礁纸艺世界、模特特写照片以及乐高模型未来火箭站等。

总的来说，通过创新的技术和训练方法，实现了在文本生成4K超高清图像领域的重大突破，为图像生成领域的发展带来了新的可能性。

原文信息

【原文链接】 阅读原文
【阅读预估】 1279 / 6分钟
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！