腾讯开源混元Image 2.1:2K高清+完美文字嵌入,图文天花板来了

AIGC动态14小时前发布 AIGCOPEN
53 0 0
腾讯开源混元Image 2.1:2K高清+完美文字嵌入,图文天花板来了

 

文章摘要


【关 键 词】 混元模型图像生成开源模型文字嵌入性能评估

今天凌晨,腾讯开源最新图像模型混元Image 2.1,其在图像生成领域表现出色。

模型特点与功能:混元Image 2.1支持原生2K分辨率图像和1000 token的超长篇复杂提示词,文本语义理解和文字嵌入能力强,能将中英文无缝写入图像,适用于专业设计场景。腾讯还开源了基于MeanFlow的加速版模型权重,可将推理步数从100步缩减至8步,以及业内首个工业级提示词改写模型PromptEnhancer,能优化提示词,生成更细腻、富有表现力的图像。

生成效果展示:混元Image 2.1生成的图像尺寸可更改,有1:1、3:4等五种类型,一次最多生成4张图像。通过多个中英文混合文字嵌入的提示词测试,如街角户外书店场景、复古黑胶唱片店宣传海报等,其文字嵌入几乎完美,字体、格式、布局符合文本提示。

架构与训练方法:该模型使用分层的语义信息,提升对复杂语义的响应能力,引入OCR代理和IP RAG,解决通用视觉语言模型的不足,并通过双向验证策略确保描述准确。采用32×压缩率的VAE,减少输入token数量,通过与DINOv2特征对齐加速训练,多桶、多分辨率的REPA损失函数加速模型收敛。配备双文本编码器,整个网络是拥有170亿参数的单流和双流扩散变换器。后处理阶段采用两阶段后训练方法,引入奖励分布对齐算法。还提出系统级工业重写模型,通过SFT训练和GRPO训练提升重写文本生成图像的语义质量。

性能提升方法与评估结果:提出基于均值流的新型蒸馏方法,解决标准均值流训练问题,首次将均值流成功应用于工业级模型。采用SSAE和GSB评估方法,SSAE评估显示混元Image 2.1在语义对齐方面达到开源模型最优性能,接近闭源商业模型;GSB评估显示其与闭源商业模型相对胜率为 -1.36%,以2.89%的胜率优于开源模型(Qwen – Image),证明其在文本到图像生成任务中达到与闭源商业模型相当的图像生成质量。

原文和模型


【原文链接】 阅读原文 [ 2006字 | 9分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...