标签：思考模式

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

语言模型对强化学习中的奖励噪音表现出显著的鲁棒性，即使奖励信号被部分翻转，模型在下游任务中的表现也不会显著下降。研究者发现，强化学习对下游任务的提...

AIGC动态

9个月前