Claude Opus 4.5夺回编程王座，超Gemini 3 Pro和GPT-5.1

1,256 0 0

文章摘要

Anthropic最新发布的Claude Opus 4.5在多项关键性能指标上实现突破，成为当前AI领域的领跑者。该模型在编码、Agent能力和计算机操作等硬核测试中全面超越GPT-5.1和Gemini 3 Pro，特别是在终端级编程能力测试中取得59%的突破性成绩。其终端级编程能力（Agentic terminal coding）允许AI在真实计算机环境中直接执行任务，不再局限于文本交互层面。

技术性能方面，Opus 4.5展现出工程师级别的系统调试能力，能够自主处理网络接口配置、跨系统bug调试，并操作桌面应用、Excel和浏览器等软件。在Anthropic内部压力测试中，模型表现出对模糊目标的处理能力，能在多种解决方案中自主权衡。更引人注目的是，该模型在Anthropic性能工程师招聘考试中创造了历史最高分，超越所有人类候选者，展现出对复杂代码库的理解和多系统交互问题的解决能力。

商业应用层面，Opus 4.5展现出独特的决策灵活性。在航空客服场景测试中，模型能够突破规则限制，通过”升舱+改签”的两步策略解决经济舱无法改签的难题。长期任务稳定性测试显示，其多步骤任务保持能力比前代提升29%。视觉处理能力也获得显著提升，3D可视化任务处理时间从两小时缩短至三十分钟。

价格策略上，Anthropic实施了大幅降价措施，输入/输出定价分别为每百万token 5美元和25美元，批量API调用价格降幅达70%。这一调整受到开发者社区欢迎，特别是AI辅助编程领域的从业者。

平台工具方面，Opus 4.5引入了三项突破性功能：Tool Search Tool实现按需查找工具、Programmatic Tool Calling支持代码化工具编排、Tool Use Examples提供使用示范。这些升级解决了传统Agent工作流中工具过多、调用过重和使用过难的痛点。Claude for Excel的推出展示了这些技术的实际价值，通过程序化工具调用实现了后台重载计算，目前该功能已向企业级用户开放测试。