全行业盯了两年的编程能力榜，今天退役！OpenAI 停用 SWE-bench Verified：未来标准将看 AI 能顶替多少程序员？

517 0 0

文章摘要

OpenAI正式宣布SWE-bench Verified逐步退出舞台，建议转向SWE-bench Pro。曾作为代码评测“北极星”的Verified，如今因多重问题不再适配前沿模型评测：最严重的是数据污染——几乎所有前沿模型（包括OpenAI自身模型）都能复现评估数据与解法，有时仅凭任务ID即可实现；至少60%的未解决问题从题面描述出发本就无法被正确解决，模型“解决”更可能是绕过评测机制。此外，Verified题目规模偏小、任务周期过短，90%的问题资深工程师一小时内就能完成，当前其测量的已不再是agent的真实代码能力，更偏向模型能否“猜中”特定实现细节。

SWE-bench Pro成为新的主要对标基准，核心优势显著：题目更大、更难，任务时间明确拉长到数小时甚至更久，覆盖的仓库、语言和问题类型更丰富；目前尚未被刷爆，污染迹象远低于Verified，现阶段仍能区分模型真实能力差异。OpenAI指出，任何公开榜单最终都会饱和失效，下一代代码评测的关键在于测量真实世界使用层面的指标：AI在现实中到底被用了多少、在多大程度上替代人类工作、又在多大程度上增强人类、加速人类。同时，行业应关注更长期的任务能力，以及代码设计品味、可维护性等难量化但对开发者意义重大的维度，甚至可参考GDP Eval的人类深度评审方式，或通过时间、金钱、复杂度等指标衡量任务价值，共同构建更贴合真实需求的评测体系。