科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

 

文章摘要


【关 键 词】 大语言模型后训练强化学习PPO算法GRPO算法

大语言模型的发展迅速,后训练强化学习算法不断演进。从 PPO 到 GRPO 再到后续改进算法,都在不断提升模型性能与稳定性。

后训练与强化学习的重要性:大语言模型的「预训练」使模型掌握通用语言能力,但生成内容不一定符合偏好,「后训练」能强化模型特定领域知识和应用能力。强化学习是后训练的核心,OpenAI 在训练 GPT 时采用 RLHF 方法,但直接用其反馈训练模型会出现激励不充分和方差过大问题。

PPO 的稳定策略:为稳定实现 RLHF,OpenAI 构建 PPO 机制,引入 Critic 解决激励不充分问题,采用 Clip 策略避免模型变化过大导致的不稳定,PPO 成为强化学习领域标准方法之一。

GRPO 的提出与优势:为解决 PPO 双模型策略成本高的问题,DeepSeek 提出 GRPO,去掉 Critic 模型,用模型过去多次输出的平均 Reward 作为基准线确定 Advantage,保留 Clip 和对 Reference Model 的 KL 正则保障更新稳定性。

GRPO 后续改进算法
DAPO:针对 GRPO 实践中的问题,如 Token 级 Clip 导致熵崩溃、Batch 采样奖励极端化、长序列训练梯度分布失衡等,提出 Clip-Higher 机制、动态采样、Token 级策略梯度损失和超长奖励调整等优化措施,训练曲线和最终性能提升明显。
GSPO:指出 GRPO 在 token 级应用重要性采样会导致训练不稳定,将重要性采样从 token 级转移至序列级,缓解逐 token 方差累积问题,提升训练稳定性,对序列级重要性做长度归一化。
GFPO:解决 GRPO 依赖单一标量奖励信号难以同时优化多个属性的问题,通过为每个问题采样更大候选响应组,在计算策略梯度时显式过滤不符合目标属性的响应,可同时优化多个所需属性。

GRPO 的其他问题:存在奖励歧义性、丢弃中间文本反馈、多轮推理表现不佳等缺陷,为未来研究提供思路。

总体而言,后训练策略优化从 PPO 到 GRPO 再到后续改进算法不断发展,各有特点与优势,推动着大语言模型性能不断提升。

原文和模型


【原文链接】 阅读原文 [ 5290字 | 22分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...