标签：ICLR2026

天津大学牵头「拧干」RLVR「低效海绵」：ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍

随着大语言模型在复杂推理任务中的广泛应用，强化学习已成为激发其深度思考潜力的核心范式。然而，当前主流的强化微调方法普遍面临严重的样本效率瓶颈，导致...

AIGC动态

2个月前