标签：Agent测试

从MiniMax到DeepSeek：为何头部大模型都在押注「交错思维」？

MiniMax新一代大模型M2在轻量级软件工程Agent基准测试mini-SWE-agent中表现最佳，超越了DeepSeek、GLM、Qwen、Kimi等其他竞品。该测试主要评估大模型在真实软...

AI-Agent

3个月前