标签：组级回放

大模型训练省钱秘籍：清华POPO一招组级回放，把浪费的算力全部捡回来

在大模型可验证奖励强化学习（RLVR）的后训练过程中，让模型生成多条长链推理回答的成本极其高昂。当同一提示词下的多条回答全部正确或全部错误时，其奖励方...

AIGC动态

4小时前