文章摘要
【关 键 词】 模型升级、口碑两极、性能倒退、成本上涨、用户信任
Opus 4.7 发布后引发了社区巨大的争议,口碑呈现剧烈两极分化态势。官方榜单显示该模型并列全球第一,但公开测试中逻辑推理能力却出现显著下滑。用户集体控诉新版本更贵、更蠢且更爱顶嘴,导致工作流受到严重冲击。开发者反馈代码能力断崖式下跌,日常核心操作频繁出错,复杂逻辑链推理明显变弱。此外,新分词器导致相同文本的 token 消耗量增加至原来的 1.35 倍,虽单价未变但实际账单上涨,旧接口直接报错也增加了迁移成本。
面对反弹,官方强调模型在长周期智能体任务及知识型工作方面表现尤为出色。评测数据显示,该模型在衡量真实知识工作任务的维度上碾压了所有对手,幻觉率也比前代下降了 25 个百分点。然而,特定基准测试如 NYT Connections Extended 得分从 94.7% 暴跌到 41.0%,长上下文检索任务也存在显著退步。模型行为变得更加字面化,不再轻易猜测用户意图,这种改变被部分用户视为攻击性增强,实则是向更有主见的同事角色转变。对于提示词含糊的用户来说,体验明显下降。
此次争议反映出模型迭代中能力再分配带来的工程取舍。每一次更好都意味着推翻上一次的刚好,快速迭代将迁移成本一次性推给了用户。尽管部分技术故障已修复,但信任重建缓慢。当人工智能成为生产力工具,升级不再能无条件牺牲原有工作流。用户耐心开始倒计时,开发者需要在算力竞赛中平衡迭代速度与用户体验。如何在快速迭代的同时保证工作流稳定,成为下一阶段的竞争瓶颈。
原文和模型
【原文链接】 阅读原文 [ 2534字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3.5-397b-a17b
【摘要评分】 ★★★☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



