标签:偏好优化
沿着何恺明团队「漂移模型」再走一步:奖励只需排名,单步文生图偏好优化提速3.51倍
针对单步生成模型在偏好后训练中难以获取去噪轨迹的问题,西湖大学与香港中文大学(深圳)的研究团队提出了一种名为DrPO的漂移偏好优化方法。该方法将漂移场...
无需构造偏好对:TGO用标量反馈对齐视觉生成模型|ICML’26
生成模型的偏好对齐正在从传统的成对比较转向利用标量反馈的新阶段。过往主流算法依赖成对偏好数据进行训练,虽结构优雅且计算高效,但将真实场景中连续的多...
上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
多模态模型在感知、理解与生成等方面的能力持续提升,但其输出中仍普遍存在与客观事实不一致的内容,即多模态幻觉现象。当模型面对信息缺失、语义含混或视觉...
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
为使大型语言模型(LLM)与人类价值观和意图保持一致,学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。SimPO的核心优势在于其奖...




