标签：奖励机制

强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

强化学习已成为大语言模型后训练阶段的核心技术，尤其在推动模型推理能力跃升方面发挥着关键作用。算法演进经历了从以近端策略优化为主导到多分支并行创新的...

AIGC动态

1个月前

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

大型语言模型在版本迭代中逐渐频繁在回复中提及奇幻生物，引发技术界关注。OpenAI的技术复盘证实，该异常现象根源于模型人格功能引入的强化学习奖励机制。在...

AIGC动态

2个月前