标签:序列优化

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

强化学习(RL)已成为提升大语言模型(LLM)复杂推理能力的关键技术范式,但其训练稳定性问题亟待解决。当前主流RL算法存在序列级奖励与token级优化的不匹配...