标签：代码代理

同一个模型，换套框架成绩差27%：SWE-bench分数到底谁说了算？

当前编程Agent评测面临标准不统一的问题，SWE-bench的分数受底层模型、框架设计和任务集共同影响，导致不同系统的成绩难以直接横向比较，且通用Agent因输出格...

AI-Agent

3小时前