标签:分布对齐

从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」丨ICML 2026

在损失函数的构建上,框架突破传统最优传输方案强制全量匹配的局限,创新性引入部分最优传输理论与质量松弛机制。该策略赋予模型动态舍弃低匹配度数据的权利...