标签：GRPO算法

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

大语言模型的发展迅速，后训练的强化学习算法不断演进。从 PPO 到 GRPO 再到后续改进算法，都在不断提升模型性能与稳定性。后训练与强化学习的重要性：大语言...

AIGC动态

5个月前

出人意料！DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就够了

DeepSeek-R1模型的核心强化学习算法GRPO通过分组分数替代价值模型，显著降低了训练资源消耗。然而，阶跃星辰与清华大学的最新研究表明，采用带GAE（λ=1，γ=1...

AIGC动态

12个月前