全球最强编码模型 Claude 4 震撼发布：自主编码7小时、给出一句指令30秒内搞定任务，丝滑无Bug

2,259 0 0

文章摘要

Anthropic在首届开发者大会上正式发布了Claude 4系列模型，包括Claude Opus 4和Claude Sonnet 4两个型号。Claude Opus 4是该公司迄今为止最强大的AI模型，能够连续处理长时间运行的任务，在客户测试中，Opus 4可以自主运行7个小时，显著扩展了AI代理的可能性。Anthropic将其描述为“世界上最好的编码模型”，在编码任务和使用网络搜索等“工具”方面的表现优于谷歌的Gemini 2.5 Pro、OpenAI的o3推理和GPT-4.1模型。Opus 4在SWE-bench和Terminal-bench上均领先，擅长编码和解决复杂问题，为前沿代理产品提供动力。Cursor称其为编码领域的最新技术，并在复杂代码库理解方面实现了飞跃。Replit报告称，其跨多个文件的复杂更改的精度和显著改进。

Claude Opus 4在内存能力方面也显著超越了所有前代型号，能够熟练地创建和维护“内存文件”来存储关键信息，提升代理在长期任务中的感知能力、连贯性和执行性能。Claude Sonnet 4是一款更经济实惠、更注重效率的型号，更适合执行常规任务，取代了2月份发布的3.7 Sonnet型号。Sonnet 4提供“卓越的编码和推理能力”，同时提供更精确的响应。与3.7 Sonnet相比，这两款型号在完成任务时走捷径和钻空子的可能性降低了65%，而且当开发人员为Claude提供本地文件访问权限时，它们能够更好地存储长期任务的关键信息。Sonnet 4在Sonnet 3.7业界领先的功能基础上进行了显著提升，在SWE-bench上实现了72.7%的出色编码效率。该模型在内部和外部用例的性能和效率之间取得了平衡，并增强了可控性，从而更好地控制实现。

Claude Opus 4和Sonnet 4是混合模型，提供两种模式：近乎即时的响应和用于更深层次推理的扩展思维。Pro、Max、Team和Enterprise Claude套餐包含两种模型和扩展思维，Sonnet 4也面向免费用户开放。两种模型均可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用。定价与之前的Opus和Sonnet模型保持一致：Opus 4为每百万token（输入/输出）15～75美元，Sonnet 4为3～15美元。

除了新模型外，Anthropic的Claude Code agentic命令行工具在2月份有限预览后现已正式发布。Claude Code现在支持通过GitHub Actions执行后台任务，并与VS Code和JetBrains原生集成，可直接在文件中显示编辑内容，实现无缝的结对编程。Anthropic还表示，为了应对来自OpenAI、谷歌和Meta的竞争，该公司正在转型，提供“更频繁的模型更新”。

Anthropic的其他更新还包括：使用工具进行扩展思考（测试版）、两种模型都可以并行使用工具，更精确地遵循指令，并且当开发人员授予其访问本地文件的权限时，可以显著提高记忆能力，提取和保存关键事实以保持连续性并随着时间的推移建立隐性知识。新的API功能包括代码执行工具、MCP连接器、文件API以及将提示缓存长达一小时的能力。

Anthropic上周确认，其第一季度年化营收达到20亿美元，较上一季度的10亿美元增长了一倍多。该公司营收主管凯特·詹森最近接受CNBC采访时表示，Anthropic年度消费超过10万美元的客户数量较去年同期增长了八倍。华尔街继续向Anthropic等人工智能初创公司投入资金：该公司上周获得了25亿美元的五年期循环信贷额度，以增强其在不断扩大且昂贵的人工智能竞争中的流动性。

Claude 4的发布在社交平台上引发了诸多关注。有网友第一时间进行了实测，随后表示，“Claude 4强大到令人发指！我就输入一句‘给我做个CRM仪表盘’的指令，它30秒就搞定了，我整个人都惊呆了！！”另一位第一时间实测了Claude 4的网友表示，这编码能力绝对要远远优于3.5/3.7版本。还有位提前体验了Claude 4的用户表示，它的表现让人印象深刻。

2025年，人工智能行业已显著转向推理模型。这些系统在做出反应之前会系统地解决问题，模拟类似人类的思维过程，而不是简单地根据训练数据进行模式匹配。OpenAI于去年12月凭借其“o”系列开启了这一转变，随后谷歌Gemini 2.5 Pro也推出了实验性的“深度思考”功能。DeepSeek的R1模型凭借其卓越的问题解决能力和极具竞争力的价格意外地占领了市场份额。这一转变标志着人们使用人工智能方式的根本性变革。根据Poe的《2025年春季人工智能模型使用趋势报告》，推理模型的使用量在短短四个月内增长了五倍，占所有人工智能交互的比例从2%增长到10%。用户越来越多地将人工智能视为解决复杂问题的思维伙伴，而非简单的问答系统。

Claude的新模型的独特之处在于将工具的使用直接融入推理过程。这种同步研究与推理的方法比以往先收集信息再进行分析的系统更贴近人类认知。在推理过程中暂停、查找数据并融入新发现的能力，创造了更自然、更有效的解决问题体验。Anthropic的新发布时机凸显了高级人工智能领域竞争的加速。在OpenAI推出GPT-4.1系列仅五周后，Anthropic就推出了在关键指标上挑战甚至超越它的模型。谷歌本月初更新了其Gemini 2.5系列，而Meta最近发布了其Llama 4模型，该模型具有多模态功能和1000万个token上下文窗口。

在这个日益专业化的市场中，每个主要实验室都展现出独特的优势。OpenAI在通用推理和工具集成方面处于领先地位，谷歌在多模态理解方面表现出色，而Anthropic则在持续性能和专业编码应用方面独占鳌头。这对企业客户而言具有重大的战略意义。如今，企业面临着日益复杂的决策，即针对特定用例部署哪些AI系统，没有哪个模型能够在所有指标上占据主导地位。这种碎片化有利于成熟的客户，他们可以利用专业的AI优势，同时也挑战了寻求简单统一解决方案的公司。