智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门

文章摘要
2024年9月,智源研究院发布了统一图像生成模型OmniGen,该模型在单一架构内支持多种图像生成任务,包括文本生成图像、图像编辑和主题驱动图像生成。用户仅需使用多模态的自然语言指令即可实现这些功能,无需依赖额外的上下文提示、插件或预处理模块。OmniGen因其高度通用性和简洁架构获得广泛好评。随后,随着Gemini 2.0 Flash和GPT-4o等闭源多模态模型的发布,统一图像生成模型成为研究与应用的热点方向。
在这一背景下,OmniGen迎来重大技术升级,推出OmniGen2。新一代模型在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量。OmniGen2全面继承了其基座多模态大模型在上下文理解与生成方面的能力,同时支持图像和文字生成,进一步打通了多模态技术生态。此外,模型权重、训练代码及训练数据将全面开源,为社区开发者提供优化与扩展的基础。这些特性将推动统一图像生成模型从构想向现实的转变。
OmniGen2采用了分离式架构解耦文本和图像,并采用了ViT和VAE的双编码器策略。ViT和VAE独立作用于MLLM和Diffusion Transformer中,提高图像一致性的同时保证原有的文字生成能力。此外,OmniGen2还重构了数据生成流程,解决了开源数据集在图像编辑任务中存在的质量缺陷。通过从视频数据和图像数据中生成图像编辑和上下文参考数据的构造流程,OmniGen2有效弥补了开源模型与商业模型之间的性能差距。
受到大型语言模型自我反思能力的启发,OmniGen2探索了将反思能力整合到多模态生成模型中的策略。基于OmniGen2的基础模型构建了面对图像生成的反思数据,反思数据由文本和图像的交错序列组成,首先是一个用户指令,接着是多模态模型生成的图像,然后是针对之前生成输出的逐步反思。经过训练的模型具备初步的反思能力,未来目标是进一步使用强化学习进行训练。
OmniGen2发布一周内,GitHub星标突破2000,X上相关话题浏览量数十万。科研体验版已开放,用户可抢先尝试图像编辑、上下文参照的图像生成等特色能力。OmniGen2支持基于自然语言指令的图片编辑功能,可实现局部修改操作,包括物体增删、颜色调整、人物表情修改、背景替换等。此外,OmniGen2可从输入图像中提取指定元素,并基于这些元素生成新图像。当前OmniGen2更擅长保持物体相似度而不是人脸相似度。
OmniGen2在已有基准上取得了颇具竞争力的结果,包括文生图和图像编辑。然而,对于图片上下文参考生成任务,目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。现有的上下文图像生成基准在捕获实际应用场景方面存在不足,它们不考虑具有多个输入图像的场景,并且受到上下文类型和任务类型的限制。为了解决这一限制,团队引入了OmniContext基准,其中包括8个任务类别,专门用于评估个人、物体和场景的一致性。数据的构建采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法。
OmniGen2依托智源研究院自研的大模型训练推理并行框架FlagScale,开展推理部署优化工作。通过深度重构模型推理链路,并融合TeaCache缓存加速策略,实现32%的推理效率提升,大幅缩短响应时间并强化服务效能。同时,框架支持一键式跨机多实例弹性部署,有效提升集群资源整体利用率。团队将持续推进软硬协同优化,构建高效推理部署能力体系。
OmniGen2的模型权重、训练代码及训练数据将全面开源,为开发者提供优化与扩展的新基础,推动统一图像生成模型从构想加速迈向现实。
原文和模型
【原文链接】 阅读原文 [ 1610字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆