标签:Agent测试

从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?

MiniMax新一代大模型M2在轻量级软件工程Agent基准测试mini-SWE-agent中表现最佳,超越了DeepSeek、GLM、Qwen、Kimi等其他竞品。该测试主要评估大模型在真实软...