标签:编程评测
同一个模型,换套框架成绩差27%:SWE-bench分数到底谁说了算?
当前编程Agent评测面临标准不统一的问题,SWE-bench的分数受底层模型、框架设计和任务集共同影响,导致不同系统的成绩难以直接横向比较,且通用Agent因输出格...
超越Devin!姚班带队,他们创大模型编程新世界纪录
新入局的StarShip CodeGen Agent表现惊艳,以23.67%的成绩夺得全球第二的位置,这一成绩同时刷新了非GPT-4o基模的全球最高纪录。SWEBench评测被认为高度贴近...
超越 Devin,姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单
中国初创公司OpenCSG推出的StarShip CodeGen Agent在全球编程评测排行榜上取得了显著成绩,以23.67%的通过率成为普林斯顿SWEBench排行榜的第二名,同时创下了...



