
文章摘要
【关 键 词】 GPT5评测、编程能力、模型对比、SWE评测、AI开发
GPT5发布后未带来震撼,OpenAI聚焦大模型落地与应用,发布会上强调其编程能力,一众AI IDE工具也迅速接入。然而,有媒体披露OpenAI在编程能力测试中“作弊”,在SWE‑Bench Verified编程测试里,OpenAI未跑满全部500道题,仅测试477道,而claude、谷歌等模型跑满500道。SWE‑Bench Verified是OpenAI推出的“精炼版”,原本的SWE‑Bench有2294个软件工程问题,OpenAI挑选500道题以让评测更靠谱,结果又砍掉23道。
SWE‑Bench Verified是一套面向真实世界软件工程问题的高质量评测数据,旨在衡量代码修复与理解能力,包含500个经过验证的测试样本,附带代码仓库信息、问题描述等关键信息。题目难度依据“完成时间”区分,样本来源覆盖多个知名开源项目,每个项目测试大模型不同方面的代码能力。
在SWE‑Bench Verified完整版500道题的基准下,GPT5未超越claude 4 Opus。但现实中用户常使用AI IDE配合大模型,claude 4 opus价格贵且tokens易用完,目前GPT5可能是最具性价比、可用性最强的编程模型。
实测环节,在Codebuddy环境下用GPT5制作SWE‑Bench Verified数据库查询器,生成过程较顺利。用相同prompts让claude – 4 – sonnet生成,其一次成功率不如GPT5。在UI层面,claude – 4 – sonnet生成的网页细节打磨更优;功能方面,GPT5筛选功能仓库标签数量完整,但claude – 4 – sonnet筛选操作更直观易用。引入Gemini 2.5 Pro评分,claude – 4 – sonnet生成的项目在几乎所有关键维度上优于GPT5,claude – 4 – sonnet体现出更成熟的软件工程思路和更广的应用场景覆盖,GPT5优势集中在特定功能的完整性和实现速度上。
大模型能力受数据集构成、推理策略等多种变量影响,排行榜只是一个切片,在AI Coding领域,真正决定生产力的是模型在真实开发环境中的稳定性、可维护性、与工具链的适配程度,以及能否在复杂应用场景中交出可用且可靠的代码。
原文和模型
【原文链接】 阅读原文 [ 2509字 | 11分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★