标签:偏好优化
上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
多模态模型在感知、理解与生成等方面的能力持续提升,但其输出中仍普遍存在与客观事实不一致的内容,即多模态幻觉现象。当模型面对信息缺失、语义含混或视觉...
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
为使大型语言模型(LLM)与人类价值观和意图保持一致,学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。SimPO的核心优势在于其奖...





