听说,大家都在梭后训练?最佳指南来了

听说,大家都在梭后训练?最佳指南来了

 

文章摘要


【关 键 词】 大模型后训练强化学习监督微调评估方法

大模型时代,Scaling Law曾被视为AI领域的黄金准则,但随着模型规模扩展到百亿、千亿级,其边际效益开始递减。业界逐渐将重心从预训练转向后训练阶段,这一转变催生了RLHF、RLAIF、DPO、RLVR等方法的爆发式创新。OpenAI、DeepSeek、Google等机构推出的推理核心模型,均通过强化学习后训练显著提升了推理能力,后训练已成为LLM迈向高阶智能的关键路径

基础模型通过大规模数据预训练掌握知识,但其基于下一个token预测的机制限制了实际应用效果。如图1所示,预训练模型面对提示”What is the capital city of U.S”会先补全问号,而指令微调模型则直接输出答案”Washington, D.C.”。后训练的核心目标是对齐模型行为并强化预训练能力,主要技术包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。DeepSeek R1引入的RLVR方法在提升推理和代码能力方面表现突出,而持续预训练等非正式术语则指特定领域的增强训练。

后训练的端到端生命周期如图3所示,包含SFT和RL两阶段流程。OpenAI早期采用”SFT+RLHF”两阶段,而DeepSeek V3则大量使用RLVR技术。数据质量是后训练成功的关键因素,Gemini 2.5 Pro论文特别强调了对SFT、奖励建模和RL阶段数据质量的重视。每个训练阶段都需通过自动化评估(如MMLU、IFEval)和人工评估进行验证,后者仍是衡量模型有用性和对齐程度的黄金标准。

监督微调(SFT)通过指令-回答对数据集将知识型模型转化为指令跟随模型。SFT数据集通常仅含1万-10万样本,对噪声极其敏感。高质量数据应避免标签噪声、分布不匹配和伪推理三类问题。实践中采用过滤、验证和数据增强的组合策略,如图5所示的质检流程,利用LLM作为裁判识别问题。数据处理时需解决文本长度差异,通过动态批处理、序列打包等技术提升GPU利用率。SFT损失函数采用负对数似然,通过交叉熵优化模型输出与目标序列的匹配度。

强化学习作为后训练中最复杂有效的方法,通过奖励信号优化模型行为。RLHF依赖人类偏好训练的奖励模型,RLAIF结合书面规则生成监督信号,RLVR则利用可验证信号提升精确度。过程监督和基于评分标准的奖励机制进一步细化优化粒度。实际应用常采用混合多阶段方案,如SFT→偏好优化→可验证信号RL。奖励模型通过人类标注的偏好数据训练,其核心是预测符合人类偏好的回复。偏好数据通常以成对比较形式存在,标注者需对多个回复排序。

RL算法选择随技术演进不断变化,从早期的PPO到DeepSeek-V3采用的GRPO,后者通过组采样降低计算成本。REINFORCE作为经典算法因实现简单仍被使用,而DPO虽非严格RL算法,却因无需奖励模型获得广泛关注。评估环节需综合自动评估与人工评估,前者高效覆盖客观指标,后者则针对主观质量提供不可替代的判断。这种多维度评估体系能全面检验模型在知识掌握、指令跟随、安全对齐等方面的表现。

原文和模型


【原文链接】 阅读原文 [ 5525字 | 23分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...