全行业盯了两年的编程能力榜,今天退役!OpenAI 停用 SWE-bench Verified:未来标准将看 AI 能顶替多少程序员?

AI-Agent3小时前发布 ai-front
43 0 0
全行业盯了两年的编程能力榜,今天退役!OpenAI 停用 SWE-bench Verified:未来标准将看 AI 能顶替多少程序员?

 

文章摘要


【关 键 词】 代码评测SWE基准数据污染基准升级真实评测

OpenAI正式宣布SWE-bench Verified逐步退出舞台,建议转向SWE-bench Pro。曾作为代码评测“北极星”的Verified,如今因多重问题不再适配前沿模型评测:最严重的是数据污染——几乎所有前沿模型(包括OpenAI自身模型)都能复现评估数据与解法,有时仅凭任务ID即可实现至少60%的未解决问题从题面描述出发本就无法被正确解决,模型“解决”更可能是绕过评测机制。此外,Verified题目规模偏小、任务周期过短,90%的问题资深工程师一小时内就能完成,当前其测量的已不再是agent的真实代码能力,更偏向模型能否“猜中”特定实现细节。

SWE-bench Pro成为新的主要对标基准,核心优势显著:题目更大、更难,任务时间明确拉长到数小时甚至更久,覆盖的仓库、语言和问题类型更丰富目前尚未被刷爆,污染迹象远低于Verified,现阶段仍能区分模型真实能力差异。OpenAI指出,任何公开榜单最终都会饱和失效,下一代代码评测的关键在于测量真实世界使用层面的指标:AI在现实中到底被用了多少、在多大程度上替代人类工作、又在多大程度上增强人类、加速人类。同时,行业应关注更长期的任务能力,以及代码设计品味、可维护性等难量化但对开发者意义重大的维度,甚至可参考GDP Eval的人类深度评审方式,或通过时间、金钱、复杂度等指标衡量任务价值,共同构建更贴合真实需求的评测体系。

原文和模型


【原文链接】 阅读原文 [ 6829字 | 28分钟 ]
【原文作者】 AI前线
【摘要模型】 doubao-seed-1-8-251228
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...