文章摘要
【关 键 词】 AI竞争、模型评测、技术瓶颈、行业动态、用户反馈
OpenAI最新发布的GPT-5.2模型在多项基准测试中表现不及预期,未能超越谷歌的Gemini 3 Pro。Epoch AI报告显示,GPT-5.2的能力指数(ECI)得分为152,虽位列第二,但与Gemini 3 Pro存在明显差距。在数学推理测试FrontierMath中,GPT-5.2仅在初级难度(T1-3)领先,而高级难度(T4)仍由Gemini 3主导。国际象棋解题(Chess Puzzles)是其唯一取得第一的领域,但SimpleQA Verified测试中甚至不及前代GPT-5.1,可信度出现倒退。
第三方评测数据进一步揭示了GPT-5.2的短板。OCR-Arena、simple-bench等平台显示,其排名落后于Claude Opus 4.5,长程任务处理时长(3.5小时)也远逊于Gemini 3 Pro(4.9小时)。开发者社区普遍反映,该模型存在语气生硬、视觉推理能力弱、3D生成效率低等问题。在健身仪表盘设计等具体应用场景中,用户实测结果多次垫底,与Gemini 3的流畅体验形成鲜明对比。
技术层面,OpenAI疑似遭遇预训练瓶颈。尽管内部称解决了”Shallotpeat”项目的关键问题,但GPT-5.2底层技术未实现突破性进展,主要依赖后训练优化。为应对竞争压力,OpenAI已暂停AGI和Sora项目研发,集中资源改进ChatGPT。纽约时报爆料称,其正筹备2025年初更大规模发布,同时探索电商抽成、企业软件等商业化路径。
市场反应加剧了OpenAI的困境。Ploymarket博彩数据显示,73%参与者认为谷歌拥有当前最佳AI模型。CAIS评估报告指出,Gemini 3 Pro在文本和视觉能力指数上全面领先,仅风险控制略逊于GPT-5.2。用户增长方面,尽管ChatGPT周活用户达8亿,但Gemini 3的崛起已实质性威胁其76%的市场份额。
行业格局正在重塑。谷歌创始人公开承认早期战略失误后,凭借Gemini 3 Pro+Nano Banana Pro组合重新占据技术高地。而OpenAI圣诞前预告的图像模型”栗子/榛子”测试表现不佳,输出存在色调偏差、逻辑混乱等问题,疑似基于GPT-4o改进版。这场年终较量不仅暴露了模型迭代的残酷竞争,更预示着2025年AI行业可能迎来新一轮洗牌。
原文和模型
【原文链接】 阅读原文 [ 2090字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




