标签：算法演进

强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

强化学习已成为大语言模型后训练阶段的核心技术，尤其在推动模型推理能力跃升方面发挥着关键作用。算法演进经历了从以近端策略优化为主导到多分支并行创新的...

AIGC动态

2个月前