GPT-5.2全力出击！碾压44类专业工作，实测编程同价位无对手、深度推理封神，但速度太拉胯了

434 0 0

文章摘要

GPT-5.2作为OpenAI最新发布的专业工作模型系列，包含Instant、Thinking和Pro三个版本，分别针对日常任务、深度工作和高难度问题场景进行了专项优化。该系列在通用智能、长上下文理解、工具调用及视觉能力方面实现显著突破，其端到端执行复杂现实任务的能力超越以往所有模型。OpenAI宣称这是迄今功能最强大的专业知识工作模型，在覆盖44个职业的GDPval评测中，GPT-5.2 Thinking的表现超越或持平70.9%的行业专家，且完成任务速度是人类的11倍，成本不足1%。

在专业工作场景中，该模型展现出革命性的效率提升。电子表格建模任务得分较前代提升9.3%，演示文稿与电子表格的复杂度和规范性显著提高。其多模态视觉能力将图表推理错误率降低50%，在金融、工程等依赖视觉信息的领域表现突出。25.6万词元的长文档处理测试中实现近100%准确率，特别适合合同、研究报告等深度分析场景。Tau2-bench Telecom测试98.7%的成绩验证了其稳定调用工具的能力，使客户支持等多步骤工作流中断率更低。

编程能力方面，GPT-5.2 Thinking在SWE-Bench Pro严苛测试中取得55.6%的突破性成绩，能自主完成生产环境代码调试和漏洞修复。前端开发尤其是3D元素处理能力显著提升，被开发者评价为”智能编码领域最大飞跃”。但运行速度较慢成为主要短板，深度推理时可能出现延迟。科研领域表现同样亮眼，GPQA Diamond测试达到93.2%，在统计学习理论研究中甚至提出了经专家验证的有效证明。ARC-AGI通用推理测试首次突破90%门槛，同时将实现该性能的成本降低390倍。

模型可靠性方面取得重要进展，幻觉现象较前代减少30%。Triple Whale CEO指出其架构简化为单一超级智能体，工具调用更高效。不过OpenAI仍建议对关键事务进行人工核实。定价策略上，API端采用性能导向的阶梯定价，输入输出词元分别定价1.75美元/百万和14美元/百万，缓存内容可享90%折扣。目前该系列已向ChatGPT付费用户和全体开发者开放，未来还将推出针对Codex的优化版本。