网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一

AIGC动态16小时前发布 QbitAI
69 0 0
网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一

 

文章摘要


【关 键 词】 编程模型开源测试排名

DeepSeek新版R1在编程能力上取得了显著进展,尤其在网页编程领域,成功超越了Claude Opus 4,成为新的领军者。这一成就不仅展示了DeepSeek-R1-0528的强大性能,也引发了业界对其技术背景的广泛关注。尽管Claude Opus 4曾被誉为“全球最强编码模型”,但DeepSeek-R1-0528在LiveCodeBench上的表现几乎与OpenAI o3-high相当,甚至引发了关于其是否为传说中的R2版本的猜测。

在实测环节,DeepSeek-R1-0528展现了其快速响应和高效编程的能力。例如,在制作太阳系动画应用程序的测试中,仅用49秒就生成了可运行的Python代码。尽管页面略显粗糙,但在使用Three.js模拟太阳系的测试中,DeepSeek-R1-0528仅用34秒就完成了设计思路,并实现了一键运行,效果显著提升。此外,在前端网页制作的测试中,DeepSeek-R1-0528在23秒内生成了一段HTML代码,成功实现了一个以通用人工智能为主题的网页,展示了其在前端开发中的潜力。

然而,在创建俄罗斯方块小游戏的测试中,DeepSeek-R1-0528的表现则略显不足。虽然仅用12秒就生成了Python代码,但游戏存在明显bug,且缺少交互按钮。即使经过改进,游戏仍无法正常运行,未能满足基本功能需求。这表明,尽管DeepSeek-R1-0528在编程能力上取得了显著进步,但在复杂项目的实现上仍有提升空间。

除了编程能力,DeepSeek-R1-0528在开源文本模型领域也表现出色。在MIT许可证下,它被评为当前最好的开源文本模型,总榜排名第六,开源领域排名第一。在细分领域,如困难提示和数学方面,DeepSeek-R1-0528分别排名第四和第五,展现了其在多领域的竞争力。然而,Kimi新模型在代码开源领域的最新成就,尤其是Kimi-Dev在SWE-bench Verified上以60.4%的成绩取得开源SOTA,进一步加剧了开源模型之间的竞争。

总体而言,DeepSeek-R1-0528在编程和开源文本模型领域的表现令人瞩目,尽管在某些复杂任务上仍有改进空间,但其快速响应和高效编程的能力,以及对国内用户的友好性,使其成为当前市场上不可忽视的力量。随着开源模型竞争的加剧,未来DeepSeek-R1-0528和其他开源模型的表现值得期待。

原文和模型


【原文链接】 阅读原文 [ 948字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...