标签:奖励机制
强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史
强化学习已成为大语言模型后训练阶段的核心技术,尤其在推动模型推理能力跃升方面发挥着关键作用。算法演进经历了从以近端策略优化为主导到多分支并行创新的...
OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”
大型语言模型在版本迭代中逐渐频繁在回复中提及奇幻生物,引发技术界关注。OpenAI的技术复盘证实,该异常现象根源于模型人格功能引入的强化学习奖励机制。在...




