跑分第一,推理暴跌!Claude Opus 4.7上线48小时口碑崩了

AIGC动态2小时前发布 AIera
39 0 0
跑分第一,推理暴跌!Claude Opus 4.7上线48小时口碑崩了

 

文章摘要


【关 键 词】 模型升级口碑两极性能倒退成本上涨用户信任

Opus 4.7 发布后引发了社区巨大的争议,口碑呈现剧烈两极分化态势。官方榜单显示该模型并列全球第一,但公开测试中逻辑推理能力却出现显著下滑。用户集体控诉新版本更贵、更蠢且更爱顶嘴,导致工作流受到严重冲击。开发者反馈代码能力断崖式下跌,日常核心操作频繁出错,复杂逻辑链推理明显变弱。此外,新分词器导致相同文本的 token 消耗量增加至原来的 1.35 倍,虽单价未变但实际账单上涨,旧接口直接报错也增加了迁移成本。

面对反弹,官方强调模型在长周期智能体任务及知识型工作方面表现尤为出色。评测数据显示,该模型在衡量真实知识工作任务的维度上碾压了所有对手,幻觉率也比前代下降了 25 个百分点。然而,特定基准测试如 NYT Connections Extended 得分从 94.7% 暴跌到 41.0%,长上下文检索任务也存在显著退步。模型行为变得更加字面化,不再轻易猜测用户意图,这种改变被部分用户视为攻击性增强,实则是向更有主见的同事角色转变。对于提示词含糊的用户来说,体验明显下降。

此次争议反映出模型迭代中能力再分配带来的工程取舍。每一次更好都意味着推翻上一次的刚好,快速迭代将迁移成本一次性推给了用户。尽管部分技术故障已修复,但信任重建缓慢。当人工智能成为生产力工具,升级不再能无条件牺牲原有工作流。用户耐心开始倒计时,开发者需要在算力竞赛中平衡迭代速度与用户体验。如何在快速迭代的同时保证工作流稳定,成为下一阶段的竞争瓶颈。

原文和模型


【原文链接】 阅读原文 [ 2534字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3.5-397b-a17b
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...