标签:实验评估
从“造工具”到“用仓库”:RepoMaster,驾驭GitHub解决复杂任务的智能体大师!
GitHub拥有庞大的开源代码仓库,但开发者复用代码时面临诸多挑战。为解决这一问题,中科院、清华等机构与QuantaAlpha等团队联合推出了RepoMaster,旨在让AI智...
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会 「套公式」,却不会真推理
清华和上交的最新研究对当前“纯强化学习(RL)有利于提升模型推理能力”的主流观点提出了质疑。通过一系列实验,研究者发现引入强化学习的模型在某些任务中的...