无需构造偏好对：TGO用标量反馈对齐视觉生成模型｜ICML’26

542 0 0

文章摘要

生成模型的偏好对齐正在从传统的成对比较转向利用标量反馈的新阶段。过往主流算法依赖成对偏好数据进行训练，虽结构优雅且计算高效，但将真实场景中连续的多维评分硬性转化为胜负标签会导致信息损失与监督噪声放大。为突破这一限制，研究人员提出阈值引导优化方法，直接利用独立样本的标量分数进行对齐。该方法从数据分布中动态估计全局阈值，将高于阈值的样本视为伪正例以提升其生成概率，低于阈值的样本视为伪负例以降低其概率。进一步引入置信度加权机制，使分数偏离阈值的程度直接决定监督信号的强度，从而实现更新方向与更新力度的双重控制。

该方法尤其契合视觉生成任务的特性。图像与视频的质量评估涵盖审美、语义对齐、构图稳定性及时间连贯性等复杂维度，连续标量评分比二元偏好标签更能准确反映真实反馈。同时，产品端的用户行为如点击、收藏或停留时长等亦天然呈现为点态信号。实验表明，该框架能够无缝适配扩散模型与掩码生成模型等多种架构，并在多项图像与视频评测基准上显著提升多维度奖励模型得分，验证了其泛化能力与防奖励攻击特性。相关前沿研究亦通过概率推断与分位数变换等路径，共同推动偏好优化摆脱对严格配对数据的依赖。

综合来看，传统成对偏好玩法依然具有实用价值，但标量反馈的接入正成为对齐技术演进的必然趋势。生成模型对齐的下一步不仅需要比较相对优劣，更需掌握对绝对质量的准确评估。 利用经验阈值与置信度加权将连续分数转化为有效优化信号，标志着偏好优化接口从比较数据向一般性标量监督的成功扩展。 这一范式转变将使模型能够更直接地吸收真实应用中的非对称反馈数据，为复杂视觉生成与多模态系统的后期训练提供高效且低成本的优化路径。