GPT-5费尽心机“作弊”，只为超过心魔Claude

1,428 0 0

文章摘要

GPT5发布后未带来震撼，OpenAI聚焦大模型落地与应用，发布会上强调其编程能力，一众AI IDE工具也迅速接入。然而，有媒体披露OpenAI在编程能力测试中“作弊”，在SWE‑Bench Verified编程测试里，OpenAI未跑满全部500道题，仅测试477道，而claude、谷歌等模型跑满500道。SWE‑Bench Verified是OpenAI推出的“精炼版”，原本的SWE‑Bench有2294个软件工程问题，OpenAI挑选500道题以让评测更靠谱，结果又砍掉23道。

SWE‑Bench Verified是一套面向真实世界软件工程问题的高质量评测数据，旨在衡量代码修复与理解能力，包含500个经过验证的测试样本，附带代码仓库信息、问题描述等关键信息。题目难度依据“完成时间”区分，样本来源覆盖多个知名开源项目，每个项目测试大模型不同方面的代码能力。

在SWE‑Bench Verified完整版500道题的基准下，GPT5未超越claude 4 Opus。但现实中用户常使用AI IDE配合大模型，claude 4 opus价格贵且tokens易用完，目前GPT5可能是最具性价比、可用性最强的编程模型。

实测环节，在Codebuddy环境下用GPT5制作SWE‑Bench Verified数据库查询器，生成过程较顺利。用相同prompts让claude – 4 – sonnet生成，其一次成功率不如GPT5。在UI层面，claude – 4 – sonnet生成的网页细节打磨更优；功能方面，GPT5筛选功能仓库标签数量完整，但claude – 4 – sonnet筛选操作更直观易用。引入Gemini 2.5 Pro评分，claude – 4 – sonnet生成的项目在几乎所有关键维度上优于GPT5，claude – 4 – sonnet体现出更成熟的软件工程思路和更广的应用场景覆盖，GPT5优势集中在特定功能的完整性和实现速度上。

大模型能力受数据集构成、推理策略等多种变量影响，排行榜只是一个切片，在AI Coding领域，真正决定生产力的是模型在真实开发环境中的稳定性、可维护性、与工具链的适配程度，以及能否在复杂应用场景中交出可用且可靠的代码。