
文章摘要
【关 键 词】 AI模型、数学竞赛、编程竞赛、新模型、金牌争议
近期,OpenAI和谷歌DeepMind在多个领域展示了其AI模型的强大能力,尤其是在数学和编程竞赛中的表现引发了广泛关注。OpenAI宣布其新AI模型在国际数学奥林匹克竞赛(IMO)中取得了金牌级别的成绩,达到了每年仅有不到9%的人类参赛者能企及的水平。该模型在解决六道证明类题目时,遵循了与人类参赛者相同的限制条件,包括每场考试时长4.5小时,不允许使用互联网或计算器。OpenAI表示,这一成就与以往AI在数学奥林匹克题目上的尝试有所不同,其模型将题目作为纯文本处理,并生成自然语言证明,运作方式类似标准语言模型,而非专门构建的数学系统。
然而,谷歌DeepMind的Gemini Deep Think模型也在IMO中达到了金牌水平,并在六道题目中答对了五道。谷歌的系统解决每个问题需要长达三天时间,而非人类的4.5小时限制,且需要人类协助将题目转化为正式的数学语言。尽管两家公司都宣布了金牌成绩,但评价风向却有所不同。不少网友认为OpenAI为了博眼球而提前宣布结果,且未依据官方评分标准进行评估,因此其说法的合法性存在疑问。
在编程领域,OpenAI的新模型“o3 Alpha”在WebArena上进行了短暂测试,并获得了不错的使用评价。OpenAI的CEO Sam Altman曾暗示公司内部有个模型能排进全球编程高手前50名,且有望在2025年底推出“超人类级”编程模型。此外,OpenAI的一款新定制化模拟推理模型在2025年AtCoder世界巡回赛总决赛启发式竞赛中获得了亚军,这是AI模型首次在编程赛事中与人类程序员直接同台竞技。尽管AI未夺冠,但获得第二名依然令人印象深刻,这或许预示着未来AI模型在类似赛事中占据榜首的可能性。
总体而言,OpenAI和谷歌DeepMind在AI模型研发上的竞争日益激烈,尤其是在数学和编程竞赛中的表现展示了AI技术的飞速发展。然而,这些成就也引发了关于AI模型评估标准和合法性的争议,未来如何平衡技术进步与公平竞争将成为重要议题。
原文和模型
【原文链接】 阅读原文 [ 2208字 | 9分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆