标签:代码代理

同一个模型,换套框架成绩差27%:SWE-bench分数到底谁说了算?

当前编程Agent评测面临标准不统一的问题,SWE-bench的分数受底层模型、框架设计和任务集共同影响,导致不同系统的成绩难以直接横向比较,且通用Agent因输出格...