商汤信息图增强模型,论文图表、海报、菜谱、产品介绍等统统搞定

AIGC动态2小时前发布 AIGCOPEN
97 0 0
商汤信息图增强模型,论文图表、海报、菜谱、产品介绍等统统搞定

 

文章摘要


【关 键 词】 信息图图像生成大模型多模态强化学习

商汤日日新推出的SenseNova-U1-8B-MoT-Infographic信息图增强版模型,在8B参数规模上显著提升了人工智能信息图的生成能力,并取得了同级别最高评测分数。信息图生成要求模型同时具备文字准确、版式优美和图表数据正确的能力,是图像生成领域的公认难点。过去开源模型在处理密集小字渲染、复杂版式排版以及图表数据映射时,普遍存在文字模糊、模块变形和数据错误等问题。

为解决高密度文字渲染和图表数据生成的难题,该增强版模型采用了专项数据训练结合文字准确率强化学习的方法。这一改进使得密集小字号文字、列表编号及脚注等细节清晰可读,同时确保各类图表的数值映射与数据语义精准对应。在版式稳定性方面,模型引入版式合理性专项数据并延长中期训练,使模型掌握了更合理的空间布局规则,有效避免了多模块挤压变形和对齐错乱,目前可稳定生成一百多种风格和版式场景。

在专项增强生成能力的同时,该模型通过优化训练策略确保了通用理解能力不退化。通过在中期训练、监督微调和强化学习三个阶段优化数据配比与奖励设计,模型实现了理解与生成能力的共存。评测数据显示,该增强版模型在多项信息图相关基准测试中成绩大幅提升。其在问答准确率测试中的得分不仅显著领先同级别开源模型,甚至超越了部分参数量更大的商业模型。在轻量级参数规模下,该模型成功将信息图生成的整体正确性和视觉表现推向新高度,且通用视觉理解能力保持稳定。

原文和模型


【原文链接】 阅读原文 [ 2024字 | 9分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...