标签:离线算法

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

现有的主流生成式离线强化学习算法在处理复杂的连续长期任务时通常会暴露出现实性的瓶颈问题,这些生成的轨迹经常处于看起来内部合理但实际上已经严重偏离全...

在对齐 AI 时,为什么在线方法总是优于离线方法?

在人工智能对齐领域,在线方法和离线方法在性能上存在显著差异。DeepMind的最新研究通过实证剖析,探讨了在线算法普遍优于离线算法的根本原因。研究发现,尽...