标签：非对称加权

人大高瓴赵鑫团队新作：先拆掉 RLVR，再重建推理模型训练

当大语言模型开始被要求解数学题、写证明、规划任务流程，人们才真正意识到一件事：会生成并不等于会推理。过去几年，行业通过扩大模型规模和采用RLHF等技术...

AIGC动态

2个月前