跑分第一，推理暴跌！Claude Opus 4.7上线48小时口碑崩了

387 0 0

文章摘要

Opus 4.7 发布后引发了社区巨大的争议，口碑呈现剧烈两极分化态势。官方榜单显示该模型并列全球第一，但公开测试中逻辑推理能力却出现显著下滑。用户集体控诉新版本更贵、更蠢且更爱顶嘴，导致工作流受到严重冲击。开发者反馈代码能力断崖式下跌，日常核心操作频繁出错，复杂逻辑链推理明显变弱。此外，新分词器导致相同文本的 token 消耗量增加至原来的 1.35 倍，虽单价未变但实际账单上涨，旧接口直接报错也增加了迁移成本。

面对反弹，官方强调模型在长周期智能体任务及知识型工作方面表现尤为出色。评测数据显示，该模型在衡量真实知识工作任务的维度上碾压了所有对手，幻觉率也比前代下降了 25 个百分点。然而，特定基准测试如 NYT Connections Extended 得分从 94.7% 暴跌到 41.0%，长上下文检索任务也存在显著退步。模型行为变得更加字面化，不再轻易猜测用户意图，这种改变被部分用户视为攻击性增强，实则是向更有主见的同事角色转变。对于提示词含糊的用户来说，体验明显下降。

此次争议反映出模型迭代中能力再分配带来的工程取舍。每一次更好都意味着推翻上一次的刚好，快速迭代将迁移成本一次性推给了用户。尽管部分技术故障已修复，但信任重建缓慢。当人工智能成为生产力工具，升级不再能无条件牺牲原有工作流。用户耐心开始倒计时，开发者需要在算力竞赛中平衡迭代速度与用户体验。如何在快速迭代的同时保证工作流稳定，成为下一阶段的竞争瓶颈。