标签:ICLR2026

天津大学牵头「拧干」RLVR「低效海绵」:ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍

随着大语言模型在复杂推理任务中的广泛应用,强化学习已成为激发其深度思考潜力的核心范式。然而,当前主流的强化微调方法普遍面临严重的样本效率瓶颈,导致...