标签：代码评测

全行业盯了两年的编程能力榜，今天退役！OpenAI 停用 SWE-bench Verified：未来标准将看 AI 能顶替多少程序员？

OpenAI正式宣布SWE-bench Verified逐步退出舞台，建议转向SWE-bench Pro。曾作为代码评测“北极星”的Verified，如今因多重问题不再适配前沿模型评测：最严重的...

AI-Agent

2个月前

国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

在2023年的'百模大战'中，众多实践者推出了各类模型，包括原创和针对开源模型微调的模型，以及通用和行业特定的模型。为了合理评价这些模型的能力，清华大学...

AIGC动态

2年前 (2024)