标签:行为等价

0%完成率!Claude、GPT、Gemini 全灭,SWE-Bench作者新作把AI圈干沉默了

当前顶级大模型在真实软件系统重建任务中面临严峻考验。最新基准测试首次将评估标准从局部代码补全推向完整的工程重建,要求模型仅凭借功能文档从零构建真实...