ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景

AIGC动态2年前 (2024)发布 almosthuman2014

2,668 0 0

文章摘要

天津大学深度强化学习实验室的研究团队推出了面向现实决策场景的 Uni-RLHF 平台，这是一个专为强化学习与人类反馈（RLHF）量身定制的综合系统实施方案。Uni-RLHF 包含三个部分：通用多反馈标注平台，大规模众包反馈数据集，模块化离线 RLHF 基线代码库。

Uni-RLHF 首先针对各种反馈类型开发了用户友好的标注界面，与各种主流 RL 环境兼容。然后建立了一个系统的众包标注流水线，产生了包含 32 个任务、超过 1500 万个时间步的大规模标注数据集。最后，基于大规模反馈数据集，实现了最先进的 RLHF 算法的基线结果和模块化组件以供其他研究者使用。

Uni-RLHF 标注平台提供了众包标准标注工作流程，包括接口支持多种在线环境和离线数据集，查询采样器决定哪些数据需要被标注，交互式用户界面让众包查看可用轨迹片段并提供反馈响应，反馈翻译器将不同的反馈标签转换为标准化格式。

为了更好地捕捉和利用来自标注者的各种不同类型的反馈标签，Uni-RLHF 提出一种标准化的反馈编码格式和对应的训练方法。Uni-RLHF 支持五种反馈类型：比较反馈，属性反馈，评估反馈，视觉反馈，关键帧反馈。

在 RLHF 训练过程中，数据标注是一项复杂的工程问题。研究人员围绕 Uni-RLHF 构建众包数据注释流水线，通过并行的众包数据注释和过滤，促进大规模注释数据集的创建。为了验证 Uni-RLHF 平台各方面的易用性和对 RLHF 前沿算法性能进行验证，研究人员使用广受认可的离线 RL 数据集实现了大规模众包标注任务，以收集反馈标签。

研究人员利用收集到的众包反馈数据集对下游决策任务进行了大量实验，以评估各种不同的设计选择及其对应的优势。实验结论表明，基于 IQL 基线效果最稳定，并且比较 IQL-CS 能够表现出和 IQL-Oracle 相当的优异性能，而 CQL 基线偶尔会出现策略崩溃的结果。

Uni-RLHF 展示了在决策任务中基于 RLHF 方法取代手工设计奖励函数的重要前景，研究人员希望通过建设平台、大规模数据集和代码库以促进更加可靠，基于真实人类反馈标注的 RLHF 解决方案。该领域仍存在一些挑战和可能的未来方向，包括评估人类的非理性和偏向性，不完美奖励函数修正，以及多反馈类型的组合作用等。