Claude Sonnet 4.5 上手：一个未来 Agent 的雏形出现了

824 0 0

文章摘要

Anthropic最新发布的Claude Sonnet 4.5编程模型在多个领域展现出显著进步。该模型在OSWorld电脑使用测试中以61.4%的成绩成为最擅长操作电脑的AI，同时在金融、法律、医学和STEM等专业领域的知识与推理能力上超越了前代Opus 4.1。与单纯提升基准测试分数不同，4.5版本的核心突破在于功能层面的全面革新，包括开发体验优化、长任务处理能力增强以及办公应用整合。

开发工具方面，新增的检查点功能支持随时保存和回滚，显著降低了开发者的出错成本。原生VS Code插件和终端界面的推出，直接将模型能力嵌入工程师的日常工作环境。在长任务处理上，引入的上下文编辑和记忆工具使其能够稳定执行超过30小时的复杂任务。办公场景中，通过Chrome插件实现的网页导航、表格填写等功能，使对话界面成为工作入口。最引人注目的是Claude Agent SDK的开放，这是Anthropic首次允许外部开发者基于其底层基础设施构建自定义Agent。

实际测试显示，Claude Sonnet 4.5在编程任务中展现出三大特征：速度提升约两倍、外化记忆倾向增强以及更积极的自我验证行为。与AI IDE工具不同，这些能力并非预设功能，而是模型自发形成的工作习惯。在Three.js赛车游戏开发测试中，模型仅用1分钟就生成可运行原型，并能通过自然语言指令流畅完成后续修改。然而在复杂调试场景中，相比Codex更擅长定位问题的特点，Claude有时会出现方向偏差。

模型在操作系统层面的控制能力尤为突出。通过桌面端应用，它能操作浏览器、文件系统及各类软件。测试中，模型像人类用户一样分步骤完成网页搜索、内容采集任务，并能精准执行文件检索操作。这种能力使Claude Sonnet 4.5逐渐模糊了生成工具与自主智能体之间的界限。虽然仍存在调试迷路、执行偏差等问题，但其展现出的检查点管理、长程记忆等特性，正在重新定义人机协作模式。

当前AI编程领域的发展速度令人瞩目，Claude Sonnet 4.5不仅是一次技术迭代，更预示着开发工具生态可能面临的范式转变。随着模型自主能力的增强，传统AI IDE工具的价值主张或将面临挑战。开发者社区形成的共识是：将Claude作为高效的内容生成工具，配合Codex的深度分析能力，再辅以日志工具，构成现阶段最可靠的工作流程。这种技术演进方向，为未来的人机协作方式提供了新的想象空间。