港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026

AIGC动态4小时前发布 aitechtalk
66 0 0
港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026

 

文章摘要


【关 键 词】 组级优化奖励对齐离线训练防作弊扩散模型

GDRO是一种针对扩散模型的后训练方法,核心创新在于引入组级奖励排序机制以优化生成能力。

该方法旨在解决当前生成模型中普遍存在的“奖励作弊”问题——即模型为追求高评分而采用投机策略(如放大文字、简化场景),导致图像失真或细节缺失,而非真正提升任务理解与生成质量。

研究选用FLUX.1-dev作为基础模型,在OCR与GenEval两类任务上验证效果:OCR任务要求图像中准确呈现指定文本,GenEval则评估对象数量、属性、空间关系及整体语义一致性。

实验显示,经GDRO训练后,模型在OCR识别准确率与GenEval各项指标上均有提升,且生成图像保持完整场景结构与自然视觉效果,显著减少因迎合评分规则导致的失真现象。

人工评估进一步证实,GDRO生成图像在语义匹配度与整体质量上优于Flow-GRPO、Dance GRPO等强化学习方法,尽管文字准确性差异不大。

关键优势在于其完全离线的训练范式:训练前一次性生成带评分的图像组(每提示词对应16张图像),后续优化不再调用扩散采样过程,仅利用已存数据进行噪声预测与损失计算。

这一设计使训练效率大幅提升,在达到同等性能时所需时间明显缩短,部分任务效率提升数倍。

训练稳定性亦受益于组级结构:消融实验表明,当每组图像数量增至4–6张时,优化信号更丰富,模型崩溃风险显著降低;而仅用2张图像易致训练不稳定。

GDRO不依赖特定采样器或随机性近似(如ODE-SDE转换),流程更简洁可靠。

研究还指出,高评分未必反映真实质量,强调未来需构建更鲁棒的评估体系;同时验证了扩散模型可通过适配的奖励机制实现有效对齐,为工业界提供了一种低算力开销的后训练路径——企业可在不新增大量计算资源前提下提升大模型任务表现。


原文和模型


【原文链接】 阅读原文 [ 3955字 | 16分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...