新扩散模型OmniGen一统图像生成，架构还高度简化、易用

AIGC动态2年前 (2024)发布 almosthuman2014

3,485 0 0

文章摘要

【关键词】 图像生成、多模态、知识迁移、Transformer、开源数据集

智源近日推出了OmniGen，这是一种新的扩散模型架构，旨在统一图像生成的多模态模型。OmniGen以其统一性、简单性和知识迁移能力为特点，支持多种图像生成任务，包括文生图、图像编辑、主题驱动生成和视觉条件生成等，同时能够处理经典计算机视觉任务。其架构简化，用户友好，无需额外模块即可完成复杂任务，简化了工作流程。

OmniGen集成了多项能力，如文本到图像生成、指代表达生成、通用图像条件生成、图像编辑以及经典计算机视觉任务等。它还展示了一定的上下文学习能力和潜在的推理能力。例如，OmniGen能够根据文本指令从多人图像中定位目标对象并生成新图像，无需额外模块和操作。此外，它还能够处理非显式查询指令，如删除图中能装水的物品。

OmniGen的核心设计原则是简洁和有效，基本架构包括一个Transformer模型和一个VAE模块，共3.8B参数。为了训练模型，智源构建了首个大规模且多样化的统一图像生成数据集X2I，包含约1亿图像，未来将开源。

OmniGen的统一图像生成范式有助于执行各种下游任务，并组合各种能力满足更通用的需求。智源将继续改进模型基本能力，拓展更多有趣的功能，并鼓励社区参与对OmniGen潜在能力的发掘、基本性能的提升和广泛应用的探索。模型的报告、权重和代码等已开源，用户可以自行探索更多OmniGen的能力。