标签:离线训练

港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026

GDRO是一种针对扩散模型的后训练方法,核心创新在于引入组级奖励排序机制以优化生成能力。该方法旨在解决当前生成模型中普遍存在的“奖励作弊”问题——即模型为...