全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

 

文章摘要


【关 键 词】 语言模型偏好优化SimPO算法奖励函数性能评估

为使大型语言模型(LLM)与人类价值观和意图保持一致,学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO

SimPO的核心优势在于其奖励函数与生成指标的对齐,消除了对参考模型的需求,简化了计算过程。

SimPO的关键设计包括:(1)长度归一化的奖励,计算方式为策略模型奖励中所有token的平均对数概率;(2)目标奖励差额,确保获胜和失败响应间的奖励差异超过该差额,增强分类器泛化能力。

实验结果表明,SimPO在多样化对话能力评估基准上,如MT-Bench、AlpacaEval 2和Arena-Hard,显著优于其他偏好优化方法,展现了其在性能上的稳健性和有效性。

此外,研究指出,Instruct设置相比Base设置在所有基准上均有显著性能提升,暗示高质量SFT模型初始化和偏好数据的重要性。

消融实验进一步证明了SimPO设计中长度归一化和目标奖励差额的重要性。总之,SimPO为离线偏好优化提供了一种简单而强有力的新途径。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 4298字 | 18分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...