
文章摘要
【关 键 词】 多模态、开源模型、图像生成、人工智能、腾讯混元
腾讯混元最新发布并开源了原生多模态生图模型HunyuanImage 3.0,其参数规模高达80B,是目前参数量最大的开源生图模型。该模型将理解与生成一体化融合,成为首个开源工业级原生多模态生图模型,效果对标业界头部闭源模型,堪称开源领域最强图像生成模型。HunyuanImage 3.0支持多分辨率图像生成,具备强大的指令遵从、世界知识推理和文字渲染能力,生成的图像具有极致的美学与艺术感。
模型的核心技术方案基于Hunyuan-A13B(总参数量80B,激活参数量13B),采用原生多模态、统一自回归框架,将文本理解、视觉理解与高保真图像生成深度融合于同一架构。不同于传统DiT路线,混元3.0以LLM为核心底座,天然继承强大的语言与推理能力,并在预训练阶段深度混合LLM数据、多模态理解与生成数据,形成“理解反哺生成、语言驱动视觉”的正反馈闭环,显著提升语义对齐、细节控制与复杂场景的创作稳定性。
技术细节方面,混元3.0采用双编码器结构(VAE+ViT)作为图像理解输入,实现文本和图像的灵活交互。通过引入广义因果注意力(Generalized Causal Attention),模型在保持文本token因果型注意力的同时,赋予图像token全局注意力能力,兼顾语言因果推理与图像全局建模。二维位置编码(2D RoPE)的设计则完全兼容原始LLM的一维位置编码,最大程度保持语言能力。
数据处理方面,团队从超过100亿张原始图像中筛选出近50亿张高质量图像,并构建了一套中英双语、分层级的描述体系。推理数据集的构建激活了模型的“思维链”能力,包括T2T和T2TI数据,训练模型自主完成从理解用户意图到生成图像的全过程。训练策略采用渐进式四阶段预训练,逐步提升分辨率并引入复杂数据,随后进行指令微调和多阶段后训练,最终实现对生成结果的精细打磨。
在模型测评方面,HunyuanImage 3.0采用机器指标(SSAE)和人工评测(GSB)两种方式评估效果。SSAE结果显示,模型在语义一致性上媲美甚至超越业界领先模型;GSB人工评测中,HunyuanImage 3.0相较于多个竞品模型均表现出优势,胜率最高达14.10%,表明其足以媲美业界领先闭源模型。
HunyuanImage 3.0已面向社区完全开源,代码与权重同步释出,为开发者和研究者提供了强大的工具。其开源仓库、技术报告及相关资源均已公开,进一步推动了多模态生图技术的发展与应用。
原文和模型
【原文链接】 阅读原文 [ 2495字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★