标签:代码评测
全行业盯了两年的编程能力榜,今天退役!OpenAI 停用 SWE-bench Verified:未来标准将看 AI 能顶替多少程序员?
OpenAI正式宣布SWE-bench Verified逐步退出舞台,建议转向SWE-bench Pro。曾作为代码评测“北极星”的Verified,如今因多重问题不再适配前沿模型评测:最严重的...
国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队
在2023年的'百模大战'中,众多实践者推出了各类模型,包括原创和针对开源模型微调的模型,以及通用和行业特定的模型。为了合理评价这些模型的能力,清华大学...




