揭秘 OpenR：首个类 o1 开源推理框架，增强大型语言模型复杂推理能力

1,906 0 0

文章摘要

由伦敦大学学院（UCL）、上海交通大学、利物浦大学、香港科技大学（广州）和西湖大学联合研究团队开发的首个类 o1 全链条训练框架「OpenR」已开源。OpenR 是一个旨在增强大型语言模型（LLM）复杂推理能力的开源框架，它集成了过程奖励模型（PRM）训练、强化学习、多种搜索框架等功能。

OpenR 框架的核心是过程奖励模型（PRM），它通过策略优化技术在训练期间改进 LLM 策略，并在解码阶段引导 LLM 的搜索过程。PRM 通过输出一个0到1之间的分数，作为当前解决过程的正确性指标，从而实现对解决方案步骤的正确性判断。此外，OpenR 还引入了新数据集 MATH-APS，该数据集基于 MATH 数据集，并使用自动化方法生成样本，减少了对人工标注的依赖。

在强化学习方面，OpenR 实现了数学问题解决的马尔可夫决策过程（MDP），其中每个数学问题作为初始状态，模型生成的推理步骤作为动作，根据当前状态和动作决定下一个状态。模型在每个步骤完成后获得奖励或反馈，以评估步骤的正确性。OpenR 提供了传统的近端策略优化（PPO）和更高效的群体相对策略优化（GRPO）两种训练方法。

在解码阶段，OpenR 使用 PRM 评估每个解决步骤的准确性，并通过引导搜索和多次生成的评分或投票来实现推理时的引导搜索和规划。OpenR 支持多种搜索算法，如 Beam Search、Best-of-N 和蒙特卡洛树搜索等，每种算法在 PRM 质量上有其独特的优势。

OpenR 还观察到了与 OpenAI o1 和 Deepmind 论文相近的 Test-time Scaling Law，表明随着生成预算的增加，最佳 N 选择和束搜索方法的性能显著优于多数投票。OpenR 提供了详细的文档和教程，支持用户使用几行代码实现 PRM 的训练、强化学习训练以及不同的解码方法。

总的来说，OpenR 框架的开源将推动推理领域开源社区的发展，为研究人员和开发者提供了一个强大的工具，以构建和优化自己的复杂推断模型。