OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

AIGC动态2周前发布 AIera
128 0 0
OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

 

文章摘要


【关 键 词】 AI模型竞赛领先数学优势编程潜力质疑声音

OpenAI的o1模型在lmsys竞技场的测评中取得了显著成绩,其o1-preview版本在多个领域如数学、困难提示和编码上超越了GPT-4o,成为排行榜的领头羊。o1-mini虽然名为“mini”,但也与GPT-4o并列综合排名第二,同样在困难提示、编码和数学领域登顶。lmsys社区通过6k+的投票,将OpenAI的这一进展誉为“令人难以置信的里程碑”。

在1v1胜率的统计中,o1-preview对所有模型的胜率均超过50%,尤其是与04-09版GPT-4-Turbo的对比中,胜率达到了88%。o1-mini在与o1-preview的对抗中胜率为46%,与09-03版GPT-4o的胜率为48%,显示出与o1-preview相近但略逊一筹的实力。尽管Grok-2-mini和Claude 3.5 Sonnet排名靠后,但o1-preview对它们的胜率并不高,分别为58%和57%,低于排名第四的Gemini 1.5 Pro的69%。

在数学/推理领域,o1-preview和o1-mini不仅登顶数学排行榜,还展现出了绝对的领先优势,分数接近1360,远超其他模型。o1推理团队的领导者之一William Fedus对这一成绩表示满意,认为这很好地展示了范式转换。

o1模型在STEM学科和通用推理方面的表现回应了对AI发展的质疑。OpenAI还公开了o1模型在编程竞赛中的代码,包括6个问题的C++代码和注释,显示了其在编程领域的潜力。在Codeforces编程竞赛中,o1-preview能够打败62%的人类选手,而正式版o1则能超越89%的对手。专门微调过的o1-ioi模型表现更优,优于93%的竞争对手。

尽管o1模型取得了显著的成绩,但也存在一些质疑声音。一些人指出o1模型的推理时间长,回答延时与其他模型有明显差别。此外,lmsys社区的评分基于用户主观评价,可能存在“安慰剂效应”。还有观点认为,尽管o1-mini适合项目规划,但在编码助手如Cursor中,Claude模型的表现更佳。

o1模型的未来表现和口碑还需时间来验证。同时,Reddit网友提醒,目前公开的是o1预览版,正式版o1即将发布,值得期待。o1模型基本沿用了GPT-4的架构,让人联想到GPT-5(猎户座)的潜在高度。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1454字 | 6分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...