Anthropic 深夜祭出 Claude Sonnet 4.5,能自主连续工作 30 小时!CEO:它更像你的同事

AI-Agent24小时前发布 ai-front
69 0 0
Anthropic 深夜祭出 Claude Sonnet 4.5,能自主连续工作 30 小时!CEO:它更像你的同事

 

文章摘要


【关 键 词】 人工智能编码模型开发工具性能提升产品生态

Anthropic公司正式发布新一代人工智能模型Claude Sonnet 4.5,官方宣称其为”世界上最好的编码模型,标志着AI技术从辅助工具向独立生产力迈进的关键一步。该模型在工程落地能力上取得显著突破,在SWE-bench Verified基准测试中以77.2%的准确率领先行业,较前代提升近20个百分点。实测显示其能自主运行30小时,生成1.1万行代码,完整开发出企业级聊天应用,涵盖从数据库配置到合规审计的全流程。

性能方面,Claude Sonnet 4.5展现出卓越的长周期任务处理能力。在计算机操作领域的OSWorld测试中,得分从42.2%跃升至61.4%;在金融、法律等专业领域,推理能力较Opus 4.1提升30%以上。研究人员特别指出,该模型在数学问题解决精度和领域特定知识方面均有显著优化,使其更像一个高效协作的”同事”。

配套产品生态同步升级,包括推出Claude Code 2.0开发工具新增”检查点”功能和VS Code扩展支持;API能力强化使持续运行时间延长至30小时;交互体验方面实现代码执行与文件创建的深度集成。特别值得注意的是,面向开发者开放的Claude Agent SDK工具包,解决了长期任务记忆管理、自主性控制等核心痛点,已在Canva等企业中得到验证。

在安全性能上,该模型通过AI安全等级3认证,误报率较初代降低90%,显著减少了欺骗性回答等风险行为。防御即时注入攻击的能力也获得实质性提升。Anthropic保持价格策略稳定,API调用费用与前代一致,为每百万代币输入3美元、输出15美元。

行业观察人士认为,此次发布标志着AI技术进入”生产级交付”新阶段。开放SDK的举措将加速智能代理技术在项目管理、客户服务等场景的落地。公司透露年底前可能推出更强大的Opus系列模型,持续推动AI安全和技术边界的发展。首席产品官Mike Krieger强调,Claude Sonnet 4.5已能胜任”基本上所有用例”,成为大多数用户的默认选择。

原文和模型


【原文链接】 阅读原文 [ 1508字 | 7分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...