张俊林:OpenAI o1的价值意义及强化学习的Scaling Law

张俊林:OpenAI o1的价值意义及强化学习的Scaling Law

 

文章摘要


【关 键 词】 大模型逻辑推理自动化链式思考预训练

张俊林在其文章中对OpenAI的o1模型进行了深入分析,认为这是自GPT-4以来大模型领域的一个重要进步。o1模型在逻辑推理能力上的提升,使其在发展大模型的不同方向中占据了更根本和重要的位置。与GPT-4o模型相比,o1更专注于探索大模型在人工通用智能(AGI)道路上的潜力和极限。

文章指出,GPT-4o模型试图通过融合不同模态来构建大一统模型,但这对提升大模型的智力水平帮助有限。相反,o1模型通过提升逻辑推理能力,能够解锁更多复杂应用,从而提高大模型应用的天花板。o1模型的能力提升可以通过多种方式反哺GPT-4o模型,如替换基座模型或生成合成数据。

o1模型的核心是自动化链式思考(COT),这有助于大模型解决复杂逻辑问题。通过大量逻辑数据和类似AlphaGo的蒙特卡洛树搜索(MCTS)加强化学习,o1能够训练大模型快速找到正确的COT路径。随着问题的复杂性增加,o1生成的COT路径越长,推理成本越高,但效果更为重要。

文章还预测,随着o1模型的发展,Prompt工程将逐渐消亡,因为o1本质上自动化了复杂的Prompt构造。此外,尽管Agent概念在理论上火热,但实际应用受限于基座模型的复杂推理能力。o1模型在Agent任务上的表现有所提升,尤其是在简单和中等难度的任务上,但对于复杂任务的准确率仍有待提高。

张俊林认为,OpenAI经常作为行业的引领者,证明了某个方向的可行性,随后其他参与者会跟进。他建议,相比于GPT-4o和视频生成,更应该关注o1模型的发展方向,因为它的资源消耗相对较低,更侧重于算法和数据。

在讨论预训练Scaling Law时,文章指出,大模型的三种基础能力——语言理解与表达、世界知识存储与查询、逻辑推理——都源自训练数据。随着数据量的增加,新知识的获取比例降低,这解释了Scaling Law增长速度放缓的现象。逻辑推理能力的提升尤为困难,因为它在自然数据中的比例较低。为了提高模型的逻辑能力,预训练和后训练阶段通常会增加逻辑推理数据的比例。

最后,文章提到o1模型在训练和推理时的Scaling Law与预训练时有所不同。如果o1采用MCTS技术,那么搜索树的深度和宽度的增加将提高找到正确COT路径的可能性,但同时也会增加算力需求。这表明效果随着算力的增长而增长,但作者认为将此称为RL的Scaling Law可能不太准确。

原文链接:[https://weibo.com/1064649941/5078239682499316?sourceType=weixin &from=10E9195010&wm=9856_0004&featurecode=newtitle&s_channel=4&s_trans=1064649941_5078239682499316_](https://weibo.com/1064649941/5078239682499316?sourceType=weixin &from=10E9195010&wm=9856_0004&featurecode=newtitle&s_channel=4&s_trans=1064649941_5078239682499316_)

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3138字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...