Altman 秀新模型“翻车”，谷歌补刀躺赢！OpenAI 前员工爆肝3天，编程再赢老东家模型！

1,050 0 0

文章摘要

近期，OpenAI和谷歌DeepMind在多个领域展示了其AI模型的强大能力，尤其是在数学和编程竞赛中的表现引发了广泛关注。OpenAI宣布其新AI模型在国际数学奥林匹克竞赛（IMO）中取得了金牌级别的成绩，达到了每年仅有不到9%的人类参赛者能企及的水平。该模型在解决六道证明类题目时，遵循了与人类参赛者相同的限制条件，包括每场考试时长4.5小时，不允许使用互联网或计算器。OpenAI表示，这一成就与以往AI在数学奥林匹克题目上的尝试有所不同，其模型将题目作为纯文本处理，并生成自然语言证明，运作方式类似标准语言模型，而非专门构建的数学系统。

然而，谷歌DeepMind的Gemini Deep Think模型也在IMO中达到了金牌水平，并在六道题目中答对了五道。谷歌的系统解决每个问题需要长达三天时间，而非人类的4.5小时限制，且需要人类协助将题目转化为正式的数学语言。尽管两家公司都宣布了金牌成绩，但评价风向却有所不同。不少网友认为OpenAI为了博眼球而提前宣布结果，且未依据官方评分标准进行评估，因此其说法的合法性存在疑问。

在编程领域，OpenAI的新模型“o3 Alpha”在WebArena上进行了短暂测试，并获得了不错的使用评价。OpenAI的CEO Sam Altman曾暗示公司内部有个模型能排进全球编程高手前50名，且有望在2025年底推出“超人类级”编程模型。此外，OpenAI的一款新定制化模拟推理模型在2025年AtCoder世界巡回赛总决赛启发式竞赛中获得了亚军，这是AI模型首次在编程赛事中与人类程序员直接同台竞技。尽管AI未夺冠，但获得第二名依然令人印象深刻，这或许预示着未来AI模型在类似赛事中占据榜首的可能性。

总体而言，OpenAI和谷歌DeepMind在AI模型研发上的竞争日益激烈，尤其是在数学和编程竞赛中的表现展示了AI技术的飞速发展。然而，这些成就也引发了关于AI模型评估标准和合法性的争议，未来如何平衡技术进步与公平竞争将成为重要议题。