标签:设计纪律

AI写代码,连人类“屎山”都打不过?

当前所有主流AI编程Agent在该基准下均表现糟糕:没有一个能完整完成任一项目的所有检查点,最强模型Claude Opus 4.6严格通过率仅17.2%。 更显著的是代码质量...