从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026

73 0 0

文章摘要

在损失函数的构建上，框架突破传统最优传输方案强制全量匹配的局限，创新性引入部分最优传输理论与质量松弛机制。该策略赋予模型动态舍弃低匹配度数据的权利，使其能够依据传输代价自动排除与语义结构严重冲突的带噪样本，仅保留低成本且内在一致的高可信度偏好参与目标函数收敛。严密性分析证实，此种选择性对齐对应于更紧致的无噪风险上界，从理论层面阻断错误标签的优化干扰。多组对照实验验证了该设计在含噪数据集上的绝对优势，核心组件在消融研究中亦呈现出明确的协同增益效应，且该增益在不同参数规模的基座上均保持高度稳定。

机制升级最终实质性地改善了强化学习下游的策略输出质量。基于该框架净化的奖励信号能够大幅提升策略模型抵御对抗性越狱攻击的稳健性，在多维度安全协议中实现基准分数的系统性攀升，并有效截断噪声反馈导致的策略退化路径。研究明确揭示，面对不可免的标注不确定性，对齐目标的构建必须摒弃对所有观测数据的盲目服从，转向依托分布一致性进行高信噪比信息的主动提取与加权，从而为复杂动态环境下的价值校准提供兼具理论严密性与工程泛化力的优化范式。