标签：行为等价

0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

当前顶级大模型在真实软件系统重建任务中面临严峻考验。最新基准测试首次将评估标准从局部代码补全推向完整的工程重建，要求模型仅凭借功能文档从零构建真实...

AIGC动态

2个月前