GPT 未竟的革命,由 o1 接棒:或是 LLM 研究最重要的发现

GPT 未竟的革命,由 o1 接棒:或是 LLM 研究最重要的发现

 

文章摘要


【关 键 词】 人工智能推理能力强化学习性能突破模型发展

OpenAI近期推出了o1系列,标志着其在人工智能领域的又一次重大突破。o1系列在处理复杂推理任务方面表现出色,其在国际数学奥林匹克(IMO)资格考试中的正确解决率高达83%,相较于GPT-4o的13%有了显著提升。这一进步被认为是自Scaling Law提出以来,大型语言模型(LLM)领域最重要的发现之一,其核心在于推理时间和参数规模的协同作用。

o1系列包含三个型号:尚未发布的完整版o1、预览版o1-preview和性价比较高的轻量版o1-mini。OpenAI的联合创始人Greg Brockman在推特上赞扬了o1的性能,指出它是首个使用强化学习训练的模型,能够在回答问题前进行深入思考。lmsys在Chatbot Arena上更新了o1-preview和o1-mini,供公众测试。

尽管o1在推理方面取得了显著进步,但它并非GPT-4o的升级版,仍然无法解决如黎曼假设这样的复杂问题,也未能完全解决幻觉问题。OpenAI对o1的重新构想预示着大模型未来的发展和AI领域的新格局。

o1系列的成功也引发了关于大模型与强化学习结合的讨论。这种结合被认为能够推动人工智能的发展,通过强化学习,o1能够进行真正的“思考”,从而突破预训练的限制,进行扩展推理计算。然而,也有批评声音指出o1的局限性,如在处理某些复杂问题时的逃避行为,以及与通用人工智能(AGI)之间的差距。

在实际测试中,o1的表现令人印象深刻。在ProLLM StackUnseen基准测试中,o1模型的水平比现有最佳水平高出20%。o1-preview能够解决许多难以回答的问题,包括一些大型语言模型难以处理的数学问题。OpenAI首席研究官Bob McGrew在采访中表示,o1是一种新的模型模式,能够解决真正困难的问题,达到与人类相似的智能水平。

尽管o1在某些方面仍有不足,如在自然语言任务测试中的写作能力不如GPT-4o,但它的推出无疑为AI领域带来了新的活力和研究方向。OpenAI表示将分别研发升级o1和GPT-4o,这意味着未来的Prompt技巧可能需要针对不同的模型进行调整。随着o1系列的进一步发展,我们有理由期待它在未来能够带来更加惊人的成就。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1969字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...