AI写代码,连人类“屎山”都打不过?

AI-Agent2小时前发布 TMTPOSTAGI
84 0 0
AI写代码,连人类“屎山”都打不过?

 

文章摘要


【关 键 词】 SlopCodeBench代码退化结构侵蚀冗余度设计纪律


当前所有主流AI编程Agent在该基准下均表现糟糕:没有一个能完整完成任一项目的所有检查点,最强模型Claude Opus 4.6严格通过率仅17.2%。 更显著的是代码质量随迭代持续恶化——80%项目中结构侵蚀指数持续上升,89.8%项目冗余度不断攀升;初始功能通过率与后期全量测试通过率差距由1.4倍扩大至13.3倍,反映出“表层可用、底层崩坏”的典型退化特征。以电路模拟器为例,核心函数行数从84行膨胀至1099行,圈复杂度飙升至285,同一段参数解析逻辑重复9次,修改成本呈指数级增长。

研究人员发现,即便采用“反slop提示”或“先规划提示”等优化手段,短期质量略有改善,但退化速率未受抑制——提示词仅影响起点,不改变终点,且可能提升资源消耗而降低效率。 经验证实:提示干预虽使冗余度下降33%~34%,但项目最终通过率无显著提升(p > 0.05),甚至因过度思考架构而增加支出成本;例如GPT 5.4使用“反slop”提示后,项目总花费上升近50%,通过率却反降10个百分点。

该研究进一步揭示根本症结在于:当前AI缺乏“设计纪律”意识,其决策机制仅为“单轮最优”,而非面向长期维护目标的“全局最优”。 人类开发者具备预留扩展点、抽象公共模块、标记重构计划等前瞻行为,而AI始终追求当下任务快速通关,导致新功能插入时直接堆砌逻辑、重复复制已有模块、无视原有架构约束,使代码整体演变为高度脆弱、难以持续演进的“临时解决方案”。

对比现实开源仓库数据可知,人类主导的项目在多年迭代中保持稳定性,甚至逐步精进;而AI生成代码无论从冗余度(2.2倍)、结构侵蚀(2.2倍)还是违反率(2.9倍)看,皆远超知名开源项目如scikit-learn和scipy的表现。这意味着——所谓“AI写第一版快”,若忽略后续维护成本,其整体性价比反而低于经验型人工编码。

因此,研究团队强调:AI编程尚未达到替代程序员的成熟阶段,现阶段更宜定位为“辅助实习生”角色,专注于一次性工具构建、脚本实现与API调试等场景;对于需长期维护的核心项目,设计权仍须由开发者牢牢掌控。软件工程的核心挑战从来不是“能否写出可运行代码”,而是“能否构建可持续演化与迭代的代码系统”。 若未来无法解决AI“为未来写代码”的能力缺陷,其价值将受限于一次性交付工具,难成真正意义上的开发生产力基石。

原文和模型


【原文链接】 阅读原文 [ 3524字 | 15分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...