网页编程众测排名：DeepSeek-R1超越Claude 4加冕全球第一

1,638 0 0

文章摘要

DeepSeek新版R1在编程能力上取得了显著进展，尤其在网页编程领域，成功超越了Claude Opus 4，成为新的领军者。这一成就不仅展示了DeepSeek-R1-0528的强大性能，也引发了业界对其技术背景的广泛关注。尽管Claude Opus 4曾被誉为“全球最强编码模型”，但DeepSeek-R1-0528在LiveCodeBench上的表现几乎与OpenAI o3-high相当，甚至引发了关于其是否为传说中的R2版本的猜测。

在实测环节，DeepSeek-R1-0528展现了其快速响应和高效编程的能力。例如，在制作太阳系动画应用程序的测试中，仅用49秒就生成了可运行的Python代码。尽管页面略显粗糙，但在使用Three.js模拟太阳系的测试中，DeepSeek-R1-0528仅用34秒就完成了设计思路，并实现了一键运行，效果显著提升。此外，在前端网页制作的测试中，DeepSeek-R1-0528在23秒内生成了一段HTML代码，成功实现了一个以通用人工智能为主题的网页，展示了其在前端开发中的潜力。

然而，在创建俄罗斯方块小游戏的测试中，DeepSeek-R1-0528的表现则略显不足。虽然仅用12秒就生成了Python代码，但游戏存在明显bug，且缺少交互按钮。即使经过改进，游戏仍无法正常运行，未能满足基本功能需求。这表明，尽管DeepSeek-R1-0528在编程能力上取得了显著进步，但在复杂项目的实现上仍有提升空间。

除了编程能力，DeepSeek-R1-0528在开源文本模型领域也表现出色。在MIT许可证下，它被评为当前最好的开源文本模型，总榜排名第六，开源领域排名第一。在细分领域，如困难提示和数学方面，DeepSeek-R1-0528分别排名第四和第五，展现了其在多领域的竞争力。然而，Kimi新模型在代码开源领域的最新成就，尤其是Kimi-Dev在SWE-bench Verified上以60.4%的成绩取得开源SOTA，进一步加剧了开源模型之间的竞争。

总体而言，DeepSeek-R1-0528在编程和开源文本模型领域的表现令人瞩目，尽管在某些复杂任务上仍有改进空间，但其快速响应和高效编程的能力，以及对国内用户的友好性，使其成为当前市场上不可忽视的力量。随着开源模型竞争的加剧，未来DeepSeek-R1-0528和其他开源模型的表现值得期待。