标签:冷启动

大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式

近年来,强化学习逐步确立为大语言模型后训练的核心领域。虽然有大量实证表明该路径能有效激发模型的复杂推理能力,但在实际操作中直接把普通模型投入使用极...