Claude时代终结？LMArena实测DeepSeek R1编程得分超Opus 4，但月暗称其新模型更胜一筹

67 0 0

文章摘要

在当今以闭源模型为主导的AI技术领域，开源项目DeepSeek的最新版本DeepSeek-R1（0528）在多个关键领域超越了Claude Opus 4和GPT-4.1等顶级商业模型，成为开发者社区的焦点。DeepSeek-R1（0528）在大模型公共基准测试平台LMArena上的性能排名超越了多个顶尖封闭模型，尤其是在WebDev Arena中，其得分甚至超过了Claude Opus 4。WebDev Arena专注于复杂的Web开发挑战，测试模型在构建交互式组件、调试JavaScript和处理CSS边缘情况等方面的能力，而DeepSeek-R1（0528）在这些复杂任务中表现出色，展示了其强大的实际开发能力。

除了编码能力，DeepSeek-R1（0528）在文本竞技场中也表现不俗，排名第六。Text Arena测试广泛的语言理解、推理和复杂任务处理能力，DeepSeek-R1（0528）在这些测试中与GPT-4o和Claude Opus等模型展开直接竞争。尽管在某些细分领域的测试中，DeepSeek-R1（0528）的表现略有波动，但其整体性能仍然令人印象深刻。例如，在硬提示词测试中排名第4，在编程测试中排名第2，在数学测试中排名第5，在创意性写作测试中排名第6。

DeepSeek-R1（0528）的成功不仅在于其性能，还在于其开源特性。该模型沿用了初代R1的混合专家（MoE）架构，总参数量高达6850亿，但每次推理仅激活约370亿参数，确保了高效计算。此次升级的关键在于训练后优化，DeepSeek团队通过改进推理策略和计算资源分配，使模型在数学推导、代码生成和复杂问题解决方面的能力大幅提升。这一突破标志着开源人工智能的关键时刻，表明开放模型如今已能够与最优秀的专有系统相媲美。

然而，尽管DeepSeek-R1（0528）在技术能力上表现出色，其在用户体验方面仍不及Claude Opus。Claude Opus在日常工作流程中的高效性使其在用户体验方面具有明显优势，而DeepSeek-R1（0528）在这方面仍有提升空间。此外，LMArena的测试结果也引发了一些质疑，有研究指出LMArena在榜单分数上可能偏袒一些科技巨头公司，这使得DeepSeek-R1（0528）的测试成绩受到一定程度的争议。

与此同时，月之暗面发布了针对软件工程任务的全新开源代码大模型Kimi-Dev-72B，该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平，成绩超过了DeepSeek-R1（0528）。Kimi-Dev-72B通过大规模强化学习进行了优化，能够自主修补Docker中的真实存储库，并且只有当整个测试套件通过时才会获得奖励，确保了解决方案的正确性和稳健性。这一模型的成功进一步证明了开源模型在AI领域的潜力和竞争力。

总体而言，DeepSeek-R1（0528）和Kimi-Dev-72B的推出标志着开源AI模型在性能和应用能力上的显著进步。尽管在用户体验和测试透明度方面仍存在挑战，但这些模型的成功为开源社区提供了强有力的支持，展示了开源模型在AI领域的重要性和潜力。