标签:组级回放

大模型训练省钱秘籍:清华POPO一招组级回放,把浪费的算力全部捡回来

在大模型可验证奖励强化学习(RLVR)的后训练过程中,让模型生成多条长链推理回答的成本极其高昂。当同一提示词下的多条回答全部正确或全部错误时,其奖励方...