GPT-5.4：OpenAI做了个Kimi K2.5 +MiniMax M2.5？

37 0 0

文章摘要

3月5日，OpenAI正式发布为追赶Claude打造的能力“N合1”统一模型GPT-5.4，该模型的研发方向与能力设置，大量参考了在agent领域深耕的开源模型Kimi K2.5和MiniMax M2.5。此次发布同步将GPT-5.4上线至ChatGPT、API和Codex，同步推出更高性能的GPT-5.4 Pro，新增GPT-5.4 Thinking功能，补齐API与Codex侧的agent能力，推出面向专业场景的ChatGPT for Excel插件，并接入FactSet、标普全球等多家权威金融数据源。把AI从聊天助手，进一步推向真正能交付专业工作的系统，同时支持最高1,050,000 token上下文窗口。

此次更新呈现出研发思路的明显转变，定位彻底从聊天转向专业工作，目标用户为分析师、研究员、金融从业者等需要复杂知识产出的群体，而非普通问答用户。核心能力围绕真实职业场景优化，在测试44种职业真实工作产出的GDPval基准测试中，GPT-5.4的成绩是 83.0% wins or ties，相比GPT-5.2的70.9%提升明显；在接近投行初级分析师日常工作的表格建模任务中，平均分达到87.3%，远超GPT-5.2的68.4%，人类评审在68.0%的情况下更偏好GPT-5.4的演示文稿输出。准确性方面，GPT-5.4单条claim出错概率比GPT-5.2低33%，整段回答含错误的概率低18%，是OpenAI目前最符合事实的模型，适配专业场景对准确性的核心需求。

GPT-5.4是OpenAI首个具备原生computer-use能力的通用模型，可理解截图，执行键鼠操作，在网页、软件环境中完成复杂流程，在OSWorld-Verified测试中成绩达到75.0%，超过标注的人类水平72.4%。新增的tool search机制可按需调取工具说明，无需提前将所有工具信息塞入上下文，相关测试显示总token使用量下降47%且精度保持不变，优化了多工具场景下的agent落地体验。GPT-5.4 Thinking支持提前输出思考计划，允许用户在模型思考过程中补充修正指令，还支持用户调整思考时长，实现协作式推理，改变了过往思考模型的黑箱体验。

此次OpenAI转向“将各类agent能力原生整合进统一底座模型”的研发路线，和Kimi K2.5、MiniMax M2.5的研发方向高度一致，也有争夺OpenClaw用户的意图。目前GPT-5.4已覆盖金融分析、法律工作、软件操作、全链路编码开发等多个专业场景，可直接切入现有生产工作流，定价为每百万输入token2.50美元、输出15.00美元，GPT-5.4 Pro仅向ChatGPT高等级计划开放。（全文约760字）