标签：设计纪律

AI写代码，连人类“屎山”都打不过？

当前所有主流AI编程Agent在该基准下均表现糟糕：没有一个能完整完成任一项目的所有检查点，最强模型Claude Opus 4.6严格通过率仅17.2%。更显著的是代码质量...

AI-Agent

4小时前