标签：编程评测

同一个模型，换套框架成绩差27%：SWE-bench分数到底谁说了算？

当前编程Agent评测面临标准不统一的问题，SWE-bench的分数受底层模型、框架设计和任务集共同影响，导致不同系统的成绩难以直接横向比较，且通用Agent因输出格...

AI-Agent

2周前

超越Devin！姚班带队，他们创大模型编程新世界纪录

新入局的StarShip CodeGen Agent表现惊艳，以23.67%的成绩夺得全球第二的位置，这一成绩同时刷新了非GPT-4o基模的全球最高纪录。SWEBench评测被认为高度贴近...

AI-Agent

2年前 (2024)

超越 Devin，姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

中国初创公司OpenCSG推出的StarShip CodeGen Agent在全球编程评测排行榜上取得了显著成绩，以23.67%的通过率成为普林斯顿SWEBench排行榜的第二名，同时创下了...

AI-Agent

2年前 (2024)