标签：序列优化

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

强化学习（RL）已成为提升大语言模型（LLM）复杂推理能力的关键技术范式，但其训练稳定性问题亟待解决。当前主流RL算法存在序列级奖励与token级优化的不匹配...

AIGC动态

3个月前