DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4

AIGC动态5小时前发布 AIera
72 0 0
DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4

 

文章摘要


【关 键 词】 DeepSeek3.1编程能力上下文长模型更新成本优势

DeepSeek V3.1新版正式上线,带来诸多显著更新与提升。上下文长度拓展到128k,拥有685B参数,支持从BF16到FP8的多种精度格式。此次更新亮点丰富:编程能力表现突出,在开源模型中霸榜,Aider编程基准测试获71.6%高分,超越Claude Opus 4,且推理和响应速度更快;新增原生「search token」支持,搜索功能得到优化;架构上,线上模型去除「R1」标识,未来有望采用「混合架构」;成本优势明显,每次完整编程任务仅需1.01美元,为专有系统的六十分之一。

在模型变化方面,官方APP和网页端去掉深度思考(R1)中的「R1」,新增四个特殊Token,有推测认为这暗示推理模型与非推理模型的融合。编程性能上,DeepSeek V3.1在Aider Polyglot多语言编程测试击败Claude 4 Opus、DeepSeek R1,成本仅1美元,成为非推理模型中的SOTA。在SVGBench基准上仅次于GPT – 4.1 – mini,远超DeepSeek R1。在MMLU多任务语言理解方面不逊色于GPT – 5,但在编程、研究生级基准问答、软件工程上与GPT – 5有差距。

实测方面,上下文长度约为128K tokens,相当于整本《红楼梦》正文的1/6 – 1/8或一篇超长博士论文、大部头学术专著。实际测试中,DeepSeek能阅读约十分之一,输出速度相比以往有较大提升,工程上也有优化。推理能力测试中,能正确回答经典的9.11和9.9比大小问题,更新后速度变快。编程能力方面,与上一模型R1 – 0528相比有不同表现,基本要求能满足,但画面风格和颜色变换功能未完美实现,复刻GPT – 5发布会上的法语学习小程序及画SVG自画像效果较抽象。尽管未公布模型卡,DeepSeek V3.1已在Hugging Face趋势榜上排到第四,粉丝数破8万,网友对后续R2发布充满期待。

原文和模型


【原文链接】 阅读原文 [ 1042字 | 5分钟 ]
【原文作者】 新智元
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...