Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!

AIGC动态3天前发布 ai-front
137 0 0
Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!

 

文章摘要


【关 键 词】 AI模型数学竞赛编程竞赛新模型金牌争议

近期,OpenAI和谷歌DeepMind在多个领域展示了其AI模型的强大能力,尤其是在数学和编程竞赛中的表现引发了广泛关注。OpenAI宣布其新AI模型在国际数学奥林匹克竞赛(IMO)中取得了金牌级别的成绩,达到了每年仅有不到9%的人类参赛者能企及的水平。该模型在解决六道证明类题目时,遵循了与人类参赛者相同的限制条件,包括每场考试时长4.5小时,不允许使用互联网或计算器。OpenAI表示,这一成就与以往AI在数学奥林匹克题目上的尝试有所不同,其模型将题目作为纯文本处理,并生成自然语言证明,运作方式类似标准语言模型,而非专门构建的数学系统。

然而,谷歌DeepMind的Gemini Deep Think模型也在IMO中达到了金牌水平,并在六道题目中答对了五道。谷歌的系统解决每个问题需要长达三天时间,而非人类的4.5小时限制,且需要人类协助将题目转化为正式的数学语言。尽管两家公司都宣布了金牌成绩,但评价风向却有所不同。不少网友认为OpenAI为了博眼球而提前宣布结果,且未依据官方评分标准进行评估,因此其说法的合法性存在疑问。

在编程领域,OpenAI的新模型“o3 Alpha”在WebArena上进行了短暂测试,并获得了不错的使用评价。OpenAI的CEO Sam Altman曾暗示公司内部有个模型能排进全球编程高手前50名,且有望在2025年底推出“超人类级”编程模型。此外,OpenAI的一款新定制化模拟推理模型在2025年AtCoder世界巡回赛总决赛启发式竞赛中获得了亚军,这是AI模型首次在编程赛事中与人类程序员直接同台竞技。尽管AI未夺冠,但获得第二名依然令人印象深刻,这或许预示着未来AI模型在类似赛事中占据榜首的可能性。

总体而言,OpenAI和谷歌DeepMind在AI模型研发上的竞争日益激烈,尤其是在数学和编程竞赛中的表现展示了AI技术的飞速发展。然而,这些成就也引发了关于AI模型评估标准和合法性的争议,未来如何平衡技术进步与公平竞争将成为重要议题。

原文和模型


【原文链接】 阅读原文 [ 2208字 | 9分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...