Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1

AI-Agent2小时前发布 ai-front
56 0 0
Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1

 

文章摘要


【关 键 词】 AI编程模型评测终端操作价格调整工具升级

Anthropic最新发布的Claude Opus 4.5在多项关键性能指标上实现突破,成为当前AI领域的领跑者。该模型在编码、Agent能力和计算机操作等硬核测试中全面超越GPT-5.1和Gemini 3 Pro,特别是在终端级编程能力测试中取得59%的突破性成绩。其终端级编程能力(Agentic terminal coding)允许AI在真实计算机环境中直接执行任务,不再局限于文本交互层面。

技术性能方面,Opus 4.5展现出工程师级别的系统调试能力,能够自主处理网络接口配置、跨系统bug调试,并操作桌面应用、Excel和浏览器等软件。在Anthropic内部压力测试中,模型表现出对模糊目标的处理能力,能在多种解决方案中自主权衡。更引人注目的是,该模型在Anthropic性能工程师招聘考试中创造了历史最高分,超越所有人类候选者,展现出对复杂代码库的理解和多系统交互问题的解决能力。

商业应用层面,Opus 4.5展现出独特的决策灵活性。在航空客服场景测试中,模型能够突破规则限制,通过”升舱+改签”的两步策略解决经济舱无法改签的难题。长期任务稳定性测试显示,其多步骤任务保持能力比前代提升29%。视觉处理能力也获得显著提升,3D可视化任务处理时间从两小时缩短至三十分钟。

价格策略上,Anthropic实施了大幅降价措施,输入/输出定价分别为每百万token 5美元和25美元,批量API调用价格降幅达70%。这一调整受到开发者社区欢迎,特别是AI辅助编程领域的从业者。

平台工具方面,Opus 4.5引入了三项突破性功能:Tool Search Tool实现按需查找工具、Programmatic Tool Calling支持代码化工具编排、Tool Use Examples提供使用示范。这些升级解决了传统Agent工作流中工具过多、调用过重和使用过难的痛点。Claude for Excel的推出展示了这些技术的实际价值,通过程序化工具调用实现了后台重载计算,目前该功能已向企业级用户开放测试。

原文和模型


【原文链接】 阅读原文 [ 1357字 | 6分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...