标签:基准升级

全行业盯了两年的编程能力榜,今天退役!OpenAI 停用 SWE-bench Verified:未来标准将看 AI 能顶替多少程序员?

OpenAI正式宣布SWE-bench Verified逐步退出舞台,建议转向SWE-bench Pro。曾作为代码评测“北极星”的Verified,如今因多重问题不再适配前沿模型评测:最严重的...