文章摘要
【关 键 词】 GPT-5.4、专业场景、智能体、模型更新、通用模型
3月5日,OpenAI正式发布为追赶Claude打造的能力“N合1”统一模型GPT-5.4,该模型的研发方向与能力设置,大量参考了在agent领域深耕的开源模型Kimi K2.5和MiniMax M2.5。此次发布同步将GPT-5.4上线至ChatGPT、API和Codex,同步推出更高性能的GPT-5.4 Pro,新增GPT-5.4 Thinking功能,补齐API与Codex侧的agent能力,推出面向专业场景的ChatGPT for Excel插件,并接入FactSet、标普全球等多家权威金融数据源。把AI从聊天助手,进一步推向真正能交付专业工作的系统,同时支持最高1,050,000 token上下文窗口。
此次更新呈现出研发思路的明显转变,定位彻底从聊天转向专业工作,目标用户为分析师、研究员、金融从业者等需要复杂知识产出的群体,而非普通问答用户。核心能力围绕真实职业场景优化,在测试44种职业真实工作产出的GDPval基准测试中,GPT-5.4的成绩是 83.0% wins or ties,相比GPT-5.2的70.9%提升明显;在接近投行初级分析师日常工作的表格建模任务中,平均分达到87.3%,远超GPT-5.2的68.4%,人类评审在68.0%的情况下更偏好GPT-5.4的演示文稿输出。准确性方面,GPT-5.4单条claim出错概率比GPT-5.2低33%,整段回答含错误的概率低18%,是OpenAI目前最符合事实的模型,适配专业场景对准确性的核心需求。
GPT-5.4是OpenAI首个具备原生computer-use能力的通用模型,可理解截图,执行键鼠操作,在网页、软件环境中完成复杂流程,在OSWorld-Verified测试中成绩达到75.0%,超过标注的人类水平72.4%。新增的tool search机制可按需调取工具说明,无需提前将所有工具信息塞入上下文,相关测试显示总token使用量下降47%且精度保持不变,优化了多工具场景下的agent落地体验。GPT-5.4 Thinking支持提前输出思考计划,允许用户在模型思考过程中补充修正指令,还支持用户调整思考时长,实现协作式推理,改变了过往思考模型的黑箱体验。
此次OpenAI转向“将各类agent能力原生整合进统一底座模型”的研发路线,和Kimi K2.5、MiniMax M2.5的研发方向高度一致,也有争夺OpenClaw用户的意图。目前GPT-5.4已覆盖金融分析、法律工作、软件操作、全链路编码开发等多个专业场景,可直接切入现有生产工作流,定价为每百万输入token2.50美元、输出15.00美元,GPT-5.4 Pro仅向ChatGPT高等级计划开放。(全文约760字)
原文和模型
【原文链接】 阅读原文 [ 3496字 | 14分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 doubao-seed-2-0-lite-260215
【摘要评分】 ★★★★☆



