DeepSeek V3.1 Base突袭上线！击败Claude 4编程爆表，全网在蹲R2和V4

1,621 0 0

文章摘要

【关键词】 DeepSeek3.1、编程能力、上下文长、模型更新、成本优势

DeepSeek V3.1新版正式上线，带来诸多显著更新与提升。其上下文长度拓展到128k，拥有685B参数，支持从BF16到FP8的多种精度格式。此次更新亮点丰富：编程能力表现突出，在开源模型中霸榜，Aider编程基准测试获71.6%高分，超越Claude Opus 4，且推理和响应速度更快；新增原生「search token」支持，搜索功能得到优化；架构上，线上模型去除「R1」标识，未来有望采用「混合架构」；成本优势明显，每次完整编程任务仅需1.01美元，为专有系统的六十分之一。

在模型变化方面，官方APP和网页端去掉深度思考（R1）中的「R1」，新增四个特殊Token，有推测认为这暗示推理模型与非推理模型的融合。编程性能上，DeepSeek V3.1在Aider Polyglot多语言编程测试击败Claude 4 Opus、DeepSeek R1，成本仅1美元，成为非推理模型中的SOTA。在SVGBench基准上仅次于GPT – 4.1 – mini，远超DeepSeek R1。在MMLU多任务语言理解方面不逊色于GPT – 5，但在编程、研究生级基准问答、软件工程上与GPT – 5有差距。

实测方面，上下文长度约为128K tokens，相当于整本《红楼梦》正文的1/6 – 1/8或一篇超长博士论文、大部头学术专著。实际测试中，DeepSeek能阅读约十分之一，输出速度相比以往有较大提升，工程上也有优化。推理能力测试中，能正确回答经典的9.11和9.9比大小问题，更新后速度变快。编程能力方面，与上一模型R1 – 0528相比有不同表现，基本要求能满足，但画面风格和颜色变换功能未完美实现，复刻GPT – 5发布会上的法语学习小程序及画SVG自画像效果较抽象。尽管未公布模型卡，DeepSeek V3.1已在Hugging Face趋势榜上排到第四，粉丝数破8万，网友对后续R2发布充满期待。