标签:思考模式

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

语言模型对强化学习中的奖励噪音表现出显著的鲁棒性,即使奖励信号被部分翻转,模型在下游任务中的表现也不会显著下降。研究者发现,强化学习对下游任务的提...