标签:非对称加权

人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练

当大语言模型开始被要求解数学题、写证明、规划任务流程,人们才真正意识到一件事:会生成并不等于会推理。过去几年,行业通过扩大模型规模和采用RLHF等技术...