标签：训练机制

人大高瓴赵鑫团队新作：先拆掉 RLVR，再重建推理模型训练

当大语言模型开始被要求解数学题、写证明、规划任务流程，人们才真正意识到一件事：会生成并不等于会推理。过去几年，行业通过扩大模型规模和采用RLHF等技术...

AIGC动态

2个月前

DeepDiver-V2来了，华为最新开源原生多智能体系统，“团战”深度研究效果惊人

华为发布的DeepDiver-V2原生多智能体系统采用“团队作战”模式，在复杂知识问答和深度研究报告生成方面表现出色，且已开源。性能优于同规格竞品：在BrowseComp-...

AI-Agent

6个月前