4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?

AIGC动态7小时前发布 ai-front
59 0 0
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?

 

文章摘要


【关 键 词】 AI编码高速模型软件工程性能优化强化学习

Cognition公司近日推出高速AI编码模型SWE-1.5,该模型专为软件工程任务设计,现已在Windsurf代码编辑器中开放使用。通过与推理服务提供商Cerebras合作,SWE-1.5的运行速度最高可达Anthropic旗下Sonnet 4.5模型的13倍,处理速度达950 token/秒。这一性能突破使得开发者能够将某些任务的完成时间从20秒缩短至5秒以内,有效避免”半异步死亡谷”现象。

SWE-1.5是一款拥有数千亿参数的前沿规模模型,其设计理念是同时实现”思考速度快”与”思考质量高”。在SWE-Bench Pro基准测试中,该模型取得40.08%的成绩,接近当前最佳水平(near-SOTA)的编码性能。模型的高速优势源于多项技术创新,包括优化的草稿模型实现更快的投机解码、定制化请求优先级系统,以及对代码检查、命令执行流水线等核心组件的重写优化。

该模型的训练依托于由数千颗英伟达GB200 NVL72芯片组成的先进集群,可能是首个基于新一代GB200芯片训练的公开生产级模型。训练过程中,团队从零开始构建了健康检查系统与容错训练系统。模型采用端到端强化学习方法,在Cognition定制的Cascade智能体框架上完成训练。为确保编码环境质量,团队手动创建数据集还原真实场景任务分布,并开发了包含三种评分机制的高保真度评估体系。

SWE-1.5是SWE系列模型的迭代产品,其开发过程强调模型、推理过程与智能体框架的协同设计。这种高度集成的系统设计使得即便没有最大参数规模,也能通过高速体验培养忠实用户。目前Cognition团队工程师已将其用于日常工作,应用场景包括探索大型代码库、构建全栈应用程序等。

与此同时,AI编码工具Cursor也推出了高速模型Composer,两家公司都采用强化学习技术并减少对第三方API的依赖。虽然Composer生成速度为250 token/秒,不及SWE-1.5,但用户反馈显示两者在不同场景各有优势。值得注意的是,两家公司均未公开模型基础架构细节,仅透露基于”领先的开源基础模型”构建,这种透明度缺失使得独立评估存在困难。

原文和模型


【原文链接】 阅读原文 [ 2626字 | 11分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...