0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

AIGC动态2个月前发布 almosthuman2014

605 0 0

0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

文章摘要

当前顶级大模型在真实软件系统重建任务中面临严峻考验。最新基准测试首次将评估标准从局部代码补全推向完整的工程重建，要求模型仅凭借功能文档从零构建真实项目。测试结果显示，目前一线模型在此任务上的完全完成率为零。研究团队刻意移除了联网权限与原始源码，强制模型自主决定技术栈、目录结构与数据流。研究指出，模型在长尾逻辑与架构设计上仍缺乏全局规划能力，其输出多呈现高度集中的单体结构，缺乏合理的模块拆分与关注点分离。真正制约大模型编程的瓶颈已由代码生成转为长期的系统级构建与维护能力。

该测试通过行为等价原则验证模型输出，允许不同的实现路径，彻底摒弃了源码相似度评分。数据表明，模型在历史资料丰富的语言项目上表现相对较好，而在强调严谨工程哲学的语言项目中表现最差。任务难度呈显著分布，简易命令行工具通过率较高，大型底层系统则难以推进。不同项目表现的高度一致性说明现有模型在复杂工程场景中存在系统性短板。针对是否依赖训练数据残留的质疑，行业分析指出硬背源码会导致交叉验证时出现性能断崖，且技术评估的根本目的在于划定能力边界并指引智能系统向高阶演进，而非对齐普通开发者的平均水平。

此次评估明确揭示了编程人工智能从函数级辅助迈向系统工程之间的巨大断层。下一代核心竞争将不再单纯追求代码输出的长度与速度，而是聚焦于多步推理、长期记忆管理以及跨上下文稳定维护活系统的能力。随着行业对仓库级解析与长周期规划投入更多资源，如何使算法深度适应人类架构师的模块化协作范式，将成为突破当前自动化开发天花板的核心路径。