美团开源LongCat-Image,6B参数挑战80B效果,中英双语理解、图像逼真度及复杂指令编辑新突破

AIGC动态4小时前发布 AIGCOPEN
54 0 0
美团开源LongCat-Image,6B参数挑战80B效果,中英双语理解、图像逼真度及复杂指令编辑新突破

 

文章摘要


【关 键 词】 开源模型图像生成中文渲染参数优化开发者生态

美团开源了6B参数的图像模型LongCat-Image,该模型在双语文本理解、图像逼真度以及复杂指令编辑任务中展现出卓越性能。通过轻量化设计和深度优化架构,LongCat-Image在多项基准测试中超越了更大规模的模型,同时提供了从推理到训练的全链路开源方案。参数效率与架构设计方面,该模型将参数量控制在6B,显著降低了推理成本和部署门槛。基准测试数据显示,LongCat-Image在GenEval和DPG等指标上与20B甚至80B的模型表现相当,揭示了高效模型设计的巨大潜力。这种设计使得模型能够在更广泛的消费级显卡上运行,为开发者提供了更快的迭代速度和更低的运营成本。

中文文本渲染一直是图像生成领域的难点,LongCat-Image在这一方面取得了显著突破。在GlyphDraw2和CVTG-2K测试中,该模型分别获得0.95和0.8658的高分,优于其他主流模型。其CLIPScore高达90.7,表明生成图像与文本描述的语义一致性极强。模型在Acc指标上的表现达到78.59%,且在人类评估的Realism得分上超越竞品,展示了其在中文文本渲染和图像真实感方面的双重优势。这一突破得益于行业领先的中文词典覆盖率和针对性的训练框架,使模型能够精准构建中文字符的拓扑结构。

图像编辑能力方面,LongCat-Image-Edit在CEdit-Bench和GEdit-Bench测试中展现了卓越的视觉一致性。在GEdit-Bench-EN测试中,其G_SC和G_PQ得分分别为8.18和8.00,显著高于竞品FLUX.1 Kontext [Pro]的7.02。人类评估结果显示,LongCat-Image-Edit在综合质量和一致性上均大幅领先,胜率分别达到60.5%和63%。这种精确可控的编辑能力使得用户能够在不破坏图像其他部分的前提下完成局部修改。

LongCat-Image团队提供了完整的开源生态系统,包括最终发布版、开发版和专用编辑模型。开发版保留了更多可塑性,适合研究人员进行垂直领域的微调。此外,团队还开源了完整的训练代码工具链,支持SFT、LoRA、DPO等多种训练方法。这一全链路开源方案为本地部署和深度定制开发提供了极具吸引力的选项,有望推动AIGC开发者生态的进一步发展。

原文和模型


【原文链接】 阅读原文 [ 1387字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...