Claude Opus 4.7突袭！Anthropic把“不乱猜”做成了核心卖点

391 0 0

文章摘要

Anthropic 正式发布新一代旗舰模型 Claude Opus 4.7，定位为迄今能力最强的通用可用模型，标志着人工智能行业竞争焦点从追求对话流畅性转向考核自主任务执行能力。此次更新优先提升高分辨率视觉感知、复杂多步软件工程链稳定性，以及长上下文检索能力，而非单纯追求推理深度。与主要竞争对手相比，新版本在 OfficeQA 评测中取得 80.6% 的得分，几乎是谷歌同类模型的两倍，显示出在长上下文检索关键瓶颈上的突破。视觉智能方面，模型支持高分辨率图像输入，分辨率较前代提升超过三倍，使 AI 能够看懂软件界面及代码截图，直接服务于编程场景的实际需求。

在指令遵循能力上，新版本会严格按字面意思执行指令，减少了提示词的不确定性，在高级软件工程领域转化为显著提升。这意味着用户可以将过去需要密切监督的高难度编码工作交给模型处理，它会在汇报结果前主动验证自身输出。伴随发布，该公司更新了网络安全验证计划，有意限制了模型的高级网络安全能力，以防止在进攻性操作中的滥用。这种谨慎的部署策略凸显了硅谷日益增长的紧张关系：在争相打造能够替代人类工作者的模型的同时，也要确保同一模型无法摧毁数字基础设施。公司选择先把最强的模型锁起来，用稍弱但足够好的模型来测试安全机制。

效率提升伴随着成本逻辑的变化。新模型使用了修订后的分词器，使得相同输入量下的 token 消耗大约增加了 10% 到 35%，这是模型增加思考时间的代价。这说明他们优化的不是单次调用的成本，而是完成任务的总成本，一种更成熟的产品思路是早期追求便宜和快，现在开始追求靠谱。随着该模型的发布，大模型竞争的焦点正在从答得像不像，转到做得完不完。能不能把一份长文档改干净，能不能把一套资料串起来做成可交付物，能不能持续几十分钟甚至更久不跑偏，这才会决定它在日常工作里能不能真的替人扛起一片天。这个策略能否成功，取决于市场是否认可谨慎这个概念。