GPT-5.2降智遭全网差评！奥特曼慌了

283 0 0

文章摘要

OpenAI最新发布的GPT-5.2模型在多项基准测试中表现不及预期，未能超越谷歌的Gemini 3 Pro。Epoch AI报告显示，GPT-5.2的能力指数（ECI）得分为152，虽位列第二，但与Gemini 3 Pro存在明显差距。在数学推理测试FrontierMath中，GPT-5.2仅在初级难度（T1-3）领先，而高级难度（T4）仍由Gemini 3主导。国际象棋解题（Chess Puzzles）是其唯一取得第一的领域，但SimpleQA Verified测试中甚至不及前代GPT-5.1，可信度出现倒退。

第三方评测数据进一步揭示了GPT-5.2的短板。OCR-Arena、simple-bench等平台显示，其排名落后于Claude Opus 4.5，长程任务处理时长（3.5小时）也远逊于Gemini 3 Pro（4.9小时）。开发者社区普遍反映，该模型存在语气生硬、视觉推理能力弱、3D生成效率低等问题。在健身仪表盘设计等具体应用场景中，用户实测结果多次垫底，与Gemini 3的流畅体验形成鲜明对比。

技术层面，OpenAI疑似遭遇预训练瓶颈。尽管内部称解决了”Shallotpeat”项目的关键问题，但GPT-5.2底层技术未实现突破性进展，主要依赖后训练优化。为应对竞争压力，OpenAI已暂停AGI和Sora项目研发，集中资源改进ChatGPT。纽约时报爆料称，其正筹备2025年初更大规模发布，同时探索电商抽成、企业软件等商业化路径。

市场反应加剧了OpenAI的困境。Ploymarket博彩数据显示，73%参与者认为谷歌拥有当前最佳AI模型。CAIS评估报告指出，Gemini 3 Pro在文本和视觉能力指数上全面领先，仅风险控制略逊于GPT-5.2。用户增长方面，尽管ChatGPT周活用户达8亿，但Gemini 3的崛起已实质性威胁其76%的市场份额。

行业格局正在重塑。谷歌创始人公开承认早期战略失误后，凭借Gemini 3 Pro+Nano Banana Pro组合重新占据技术高地。而OpenAI圣诞前预告的图像模型”栗子/榛子”测试表现不佳，输出存在色调偏差、逻辑混乱等问题，疑似基于GPT-4o改进版。这场年终较量不仅暴露了模型迭代的残酷竞争，更预示着2025年AI行业可能迎来新一轮洗牌。