DeepSeek-R1 “小更新”：靠后训练改进就能榨出如此多潜力

1,142 0 0

文章摘要

深度求索宣布 DeepSeek – R1 模型完成重要小版本升级，新版 DeepSeek – R1 – 0528 发布，带来多方面显著提升，在开源模型领域竞争力凸显。

思维深度与推理能力显著增强：该版本基于 2024 年 12 月的 DeepSeek V3 Base 模型构建，后训练阶段投入更多算力，优化了数学、编程及通用逻辑等方面表现。在多项基准测评中成绩国内领先，接近国际顶尖模型。如在 AIME 2025 测试中，准确率从 70%提升至 87.5%，平均每题使用 tokens 从 12K 增至 23K。还将思维链蒸馏到 Qwen3 – 8B Base 模型得到 DeepSeek – R1 – 0528 – Qwen3 – 8B，该 8B 参数量模型在 AIME 2024 测试中表现仅次于 DeepSeek – R1 – 0528，超越原版 Qwen3 – 8B 达 10%，与 235B 参数量的 Qwen3 – 235B 相当，证明了高质量思维链对提升小模型推理能力的潜力。

多方面能力改进：在核心推理和编码能力上进步明显，在 LiveCodeBench 测试中与 OpenAI 最新 o3 高版本模型表现媲美。还带来其他关键能力提升，幻觉率在多种场景降低约 45% – 50%；创意写作能生成篇幅更长、结构更完整作品；支持工具调用功能；前端代码生成、角色扮演等方面能力也有更新。

API 及开源相关信息：API 同步更新，接口与调用方式不变，新增对 Function Calling 和 JsonOutput 支持，max_tokens 参数含义调整。官方网站等端上下文长度为 64K，第三方平台调用的开源版本支持 128K。模型参数量为 685B，开源版本上下文长度 128K，模型权重在 Model Scope 和 Hugging Face 平台开放下载，继续采用 MIT License。

此次更新并非依赖参数规模扩大，而是通过改进后训练策略和投入算力深度优化，实现性能跃升，虽执行复杂任务时可能消耗更多 tokens，但被视为换取准确性和深度思考的合理代价，未来大更新值得期待。