实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。

AIGC动态15小时前发布 admin
102 0 0
实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。

 

文章摘要


【关 键 词】 大模型模型评测代码开发内容创作智能体

Anthropic近期发布了Claude Opus 4.8模型,并完成了新一轮巨额融资,估值逼近万亿美元。此次更新主要源于激烈的市场竞争压力以及前代模型表现未达预期。新模型在基础参数和定价上与前代保持一致,但在网页端替代了更早的版本。在基准测试中,Opus 4.8在多数指标上表现优异,但在评估终端环境智能体开发能力的测试中仍落后于主要竞品,显示出在复杂代码开发领域仍有提升空间。

在功能特性方面,新模型向所有用户开放了思考强度控制,允许灵活调整模型的努力程度。同时,模型在执行指令时变得更加精确且严格遵循要求,显著降低了主动推测用户隐性意图的行为。这一改变有效降低了错误率和幻觉率,提升了专业开发者的使用体验,但也要求普通用户具备更精准的需求表达能力。此外,模型在诚实度上进行了重点优化,代码瑕疵蒙混过关的概率大幅降低,并在避免偷懒方面实现了极低的不良率,能够更全面地审查和优化代码。

内容创作方面,新模型的文本生成质量虽有提升,但整体仍存在明显的机器生成痕迹与刻板印象,尚未完全达到早期版本的自然度,用户需要重新适配相关的提示词与工作流。其他重要更新包括大幅降低了快速模式的调用价格,并在开发工具中引入了动态工作流功能,支持模型自主编排脚本并调用多个子智能体并行处理跨服务的复杂任务。整体而言,此次迭代在代码开发与自动化任务执行上取得了显著进步,但在自然语言创作领域仍需持续打磨。

原文和模型


【原文链接】 阅读原文 [ 3092字 | 13分钟 ]
【原文作者】 数字生命卡兹克
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...