全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

AIGC动态2个月前发布 almosthuman2014

378 0 0

文章摘要

【关键词】 语言模型、偏好优化、SimPO算法、奖励函数、性能评估

为使大型语言模型（LLM）与人类价值观和意图保持一致，学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。

SimPO的核心优势在于其奖励函数与生成指标的对齐，消除了对参考模型的需求，简化了计算过程。

SimPO的关键设计包括：（1）长度归一化的奖励，计算方式为策略模型奖励中所有token的平均对数概率；（2）目标奖励差额，确保获胜和失败响应间的奖励差异超过该差额，增强分类器泛化能力。

实验结果表明，SimPO在多样化对话能力评估基准上，如MT-Bench、AlpacaEval 2和Arena-Hard，显著优于其他偏好优化方法，展现了其在性能上的稳健性和有效性。

此外，研究指出，Instruct设置相比Base设置在所有基准上均有显著性能提升，暗示高质量SFT模型初始化和偏好数据的重要性。

消融实验进一步证明了SimPO设计中长度归一化和目标奖励差额的重要性。总之，SimPO为离线偏好优化提供了一种简单而强有力的新途径。

原文和模型

【原文链接】 阅读原文 [ 4298字 | 18分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

智谱AI

智谱AI是一家国内的AI大模型...

# AIGC动态 # 大模型 # SimPO算法 # 偏好优化 # 奖励函数 # 性能评估 # 语言模型

文章版权归作者所有，未经允许请勿转载。

「人车交互」新突破！普渡大学发布Talk2Drive框架：可学习/定制的「指令识别」系统

新智元

543

Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

Founder Park

340

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

机器之心

550

当前大模型的能力边界

admin

1,969

AI鲜测 | Claude 3全面升级：多模态+100万Token上下文长度，OpenAI也拦不住了

硅星人Pro

250

ICLR 2024 | 无需训练，Fast-DetectGPT让文本检测速度提升340倍

机器之心

716

暂无评论

暂无评论...

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

文章摘要

原文和模型

解读大模型价格战：着急的大厂，「不太慌」的模型厂商和创业者

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

相关文章

暂无评论

热门网址

热门文章

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

文章摘要

原文和模型

解读大模型价格战：着急的大厂，「不太慌」的模型厂商和创业者

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

相关文章

暂无评论

豆包-智能助手

讯飞星火大模型

Kimi-智能助手

公众号-AI说热点

热门网址

热门文章