西交大 x A*STAR 论文：让 AI 学会「保持一致」，多图生成迎来关键突破丨CVPR 2026

30 0 0

文章摘要

该研究针对图像生成中多图一致性缺失的问题，提出PaCo-RL方法，通过成对奖励建模与强化学习的结合，实现从判断一致性到生成一致图像的能力闭环。传统图像生成模型虽能优化单样本质量，却缺乏对跨图关系的稳定建模能力，导致在IP设计、品牌视觉等需系列图像统一的场景中难以实用。研究团队构建了ConsistencyRank与EditReward-Bench等基准测试，发现通用视觉语言模型（如Qwen2.5-VL-7B）在一致性判断任务中准确率仅为0.344，显著低于CLIP-I（0.394）和DreamSim（0.403），表明一致性是需专门建模的独立能力。基于此，研究团队训练出PaCo-Reward模型，在ConsistencyRank上准确率达0.449，Spearman相关系数为0.288；在EditReward-Bench中一致性指标达0.709、整体指标0.751，接近GPT-5水平, 证明其具备跨任务泛化能力而非简单记忆。

为解决标注数据稀缺问题，研究设计了自动生成与人工标注结合的数据构建流程：以708条多样化文本prompt为基础，生成2832张图像，再经子图拆分与跨网格组合，构建33984个排序样本及54624个成对比较样本，其中包含详细推理解释以增强可解释性。PaCo-Reward将一致性判断建模为语言生成任务——输入双图与文本，输出“Yes/No”判断及推理链，使模型不仅学习结果，更学习人类判断依据。该设计适配视觉语言模型的自回归机制，提升稳定性与可解释性。在生成阶段，研究引入强化学习框架，通过奖励信号反向优化生成模型，并提出两项关键策略：一是分辨率解耦，即训练时采用512分辨率（约6小时）即可达到1024分辨率12小时训练的效果；二是奖励平衡机制，通过对波动大的奖励进行压缩，将多目标奖励比例稳定控制在1.8以内，避免单一目标主导优化。实验显示，在Text-to-ImageSet任务中一致性指标提升10.3%–11.7%，GEdit-Bench编辑任务中Qwen-Image-Edit整体分由7.307升至7.451，且多语言设置下改进趋势一致。该方法实现了生成质量与一致性的协同提升，验证了从单点生成转向跨图关系建模的范式有效性，为AI在连续创作场景中的落地提供了可行路径。