标签：分布对齐

从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026

在损失函数的构建上，框架突破传统最优传输方案强制全量匹配的局限，创新性引入部分最优传输理论与质量松弛机制。该策略赋予模型动态舍弃低匹配度数据的权利...

AIGC动态

2个月前