西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026

AIGC动态2小时前发布 aitechtalk
30 0 0
西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026

 

文章摘要


【关 键 词】 图像一致性强化学习成对奖励多图生成跨图建模

该研究针对图像生成中多图一致性缺失的问题,提出PaCo-RL方法,通过成对奖励建模与强化学习的结合,实现从判断一致性到生成一致图像的能力闭环。传统图像生成模型虽能优化单样本质量,却缺乏对跨图关系的稳定建模能力,导致在IP设计、品牌视觉等需系列图像统一的场景中难以实用。研究团队构建了ConsistencyRank与EditReward-Bench等基准测试,发现通用视觉语言模型(如Qwen2.5-VL-7B)在一致性判断任务中准确率仅为0.344,显著低于CLIP-I(0.394)和DreamSim(0.403),表明一致性是需专门建模的独立能力。基于此,研究团队训练出PaCo-Reward模型,在ConsistencyRank上准确率达0.449,Spearman相关系数为0.288;在EditReward-Bench中一致性指标达0.709、整体指标0.751,接近GPT-5水平, 证明其具备跨任务泛化能力而非简单记忆

为解决标注数据稀缺问题,研究设计了自动生成与人工标注结合的数据构建流程:以708条多样化文本prompt为基础,生成2832张图像,再经子图拆分与跨网格组合,构建33984个排序样本及54624个成对比较样本,其中包含详细推理解释以增强可解释性。PaCo-Reward将一致性判断建模为语言生成任务——输入双图与文本,输出“Yes/No”判断及推理链,使模型不仅学习结果,更学习人类判断依据。该设计适配视觉语言模型的自回归机制,提升稳定性与可解释性。在生成阶段,研究引入强化学习框架,通过奖励信号反向优化生成模型,并提出两项关键策略:一是分辨率解耦,即训练时采用512分辨率(约6小时)即可达到1024分辨率12小时训练的效果;二是奖励平衡机制,通过对波动大的奖励进行压缩,将多目标奖励比例稳定控制在1.8以内,避免单一目标主导优化。实验显示,在Text-to-ImageSet任务中一致性指标提升10.3%–11.7%,GEdit-Bench编辑任务中Qwen-Image-Edit整体分由7.307升至7.451,且多语言设置下改进趋势一致。该方法实现了生成质量与一致性的协同提升,验证了从单点生成转向跨图关系建模的范式有效性,为AI在连续创作场景中的落地提供了可行路径。

原文和模型


【原文链接】 阅读原文 [ 3952字 | 16分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...