中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

120 0 0

文章摘要

现实世界中多智能体协作面临无法频繁试错的限制，离线强化学习成为重要方向。然而从单智能体转向多智能体时，系统需在反馈有限条件下学会协作，面临奖励稀疏与责任分配难题。真实任务里的奖励通常非常稀疏，模型很难知道自己到底哪一步做对了。现有方法在离线多智能体场景中往往暴露问题，难以利用历史数据学会稳定协作，泛化能力不足，传统奖励驱动方式在复杂环境下容易失灵。

中山大学团队提出 MangoBench，将问题改写为目标驱动，让模型围绕应到达状态学习。研究团队把原始数据改造为状态、动作、目标、奖励形式，放大历史数据价值。加入目标之后，模型不再只是被动等奖励，而是会一直围绕一个明确目标去行动。这种思路把模糊稀少的反馈变成了更直接的学习信号，使模型更容易学出有效策略，并在不同复杂度任务下测试泛化与协作能力，避免某一次训练碰巧表现好。

实验显示，分层强化学习方法在稀疏奖励条件下更容易学出效果。以 IHIQL 为代表的方法在中等难度任务里成功率稳定，且任务变难时未完全失效。分布式方法更像是把问题拆开来，各个智能体先管好自己那一部分，所以任务变难时还能稳住。集中训练方法因需处理太多全局信息，任务复杂时训练变得不稳定。多目标评估也揭示单目标测试会看窄模型能力，许多方法具备面对不同目标做出调整的能力。

研究揭示了离线多智能体强化学习难做好的核心障碍是学习信号太弱与责任分配问题。分层方法之所以有效，本质上是因为它把一个很难直接学会的大问题，拆成了多个更容易逐步解决的小问题。这一方向探索让多个智能体在不能随便试错情况下依然学会稳定协作，未来将受益于自动驾驶、仓储物流及工业自动化等设备的安全与效率提升，解决真正卡住多智能体系统的协同能力瓶颈。