标签:自顶向下

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

现有的主流生成式离线强化学习算法在处理复杂的连续长期任务时通常会暴露出现实性的瓶颈问题,这些生成的轨迹经常处于看起来内部合理但实际上已经严重偏离全...