AI写代码，连人类“屎山”都打不过？

84 0 0

文章摘要

【关键词】 SlopCodeBench、代码退化、结构侵蚀、冗余度、设计纪律

当前所有主流AI编程Agent在该基准下均表现糟糕：没有一个能完整完成任一项目的所有检查点，最强模型Claude Opus 4.6严格通过率仅17.2%。 更显著的是代码质量随迭代持续恶化——80%项目中结构侵蚀指数持续上升，89.8%项目冗余度不断攀升；初始功能通过率与后期全量测试通过率差距由1.4倍扩大至13.3倍，反映出“表层可用、底层崩坏”的典型退化特征。以电路模拟器为例，核心函数行数从84行膨胀至1099行，圈复杂度飙升至285，同一段参数解析逻辑重复9次，修改成本呈指数级增长。

研究人员发现，即便采用“反slop提示”或“先规划提示”等优化手段，短期质量略有改善，但退化速率未受抑制——提示词仅影响起点，不改变终点，且可能提升资源消耗而降低效率。经验证实：提示干预虽使冗余度下降33%~34%，但项目最终通过率无显著提升（p > 0.05），甚至因过度思考架构而增加支出成本；例如GPT 5.4使用“反slop”提示后，项目总花费上升近50%，通过率却反降10个百分点。

该研究进一步揭示根本症结在于：当前AI缺乏“设计纪律”意识，其决策机制仅为“单轮最优”，而非面向长期维护目标的“全局最优”。人类开发者具备预留扩展点、抽象公共模块、标记重构计划等前瞻行为，而AI始终追求当下任务快速通关，导致新功能插入时直接堆砌逻辑、重复复制已有模块、无视原有架构约束，使代码整体演变为高度脆弱、难以持续演进的“临时解决方案”。

对比现实开源仓库数据可知，人类主导的项目在多年迭代中保持稳定性，甚至逐步精进；而AI生成代码无论从冗余度（2.2倍）、结构侵蚀（2.2倍）还是违反率（2.9倍）看，皆远超知名开源项目如scikit-learn和scipy的表现。这意味着——所谓“AI写第一版快”，若忽略后续维护成本，其整体性价比反而低于经验型人工编码。

因此，研究团队强调：AI编程尚未达到替代程序员的成熟阶段，现阶段更宜定位为“辅助实习生”角色，专注于一次性工具构建、脚本实现与API调试等场景；对于需长期维护的核心项目，设计权仍须由开发者牢牢掌控。软件工程的核心挑战从来不是“能否写出可运行代码”，而是“能否构建可持续演化与迭代的代码系统”。 若未来无法解决AI“为未来写代码”的能力缺陷，其价值将受限于一次性交付工具，难成真正意义上的开发生产力基石。