DeepSeek-R1 “小更新”:靠后训练改进就能榨出如此多潜力

AIGC动态2天前发布 Si-Planet
139 0 0
DeepSeek-R1 “小更新”:靠后训练改进就能榨出如此多潜力

 

文章摘要


【关 键 词】 模型升级推理提升能力改进API更新模型开源

深度求索宣布 DeepSeek – R1 模型完成重要小版本升级,新版 DeepSeek – R1 – 0528 发布,带来多方面显著提升,在开源模型领域竞争力凸显。

思维深度与推理能力显著增强:该版本基于 2024 年 12 月的 DeepSeek V3 Base 模型构建,后训练阶段投入更多算力,优化了数学、编程及通用逻辑等方面表现。在多项基准测评中成绩国内领先,接近国际顶尖模型。如在 AIME 2025 测试中,准确率从 70%提升至 87.5%,平均每题使用 tokens 从 12K 增至 23K。还将思维链蒸馏到 Qwen3 – 8B Base 模型得到 DeepSeek – R1 – 0528 – Qwen3 – 8B,该 8B 参数量模型在 AIME 2024 测试中表现仅次于 DeepSeek – R1 – 0528,超越原版 Qwen3 – 8B 达 10%,与 235B 参数量的 Qwen3 – 235B 相当,证明了高质量思维链对提升小模型推理能力的潜力。

多方面能力改进:在核心推理和编码能力上进步明显,在 LiveCodeBench 测试中与 OpenAI 最新 o3 高版本模型表现媲美。还带来其他关键能力提升,幻觉率在多种场景降低约 45% – 50%;创意写作能生成篇幅更长、结构更完整作品;支持工具调用功能;前端代码生成、角色扮演等方面能力也有更新。

API 及开源相关信息:API 同步更新,接口与调用方式不变,新增对 Function Calling 和 JsonOutput 支持,max_tokens 参数含义调整。官方网站等端上下文长度为 64K,第三方平台调用的开源版本支持 128K。模型参数量为 685B,开源版本上下文长度 128K,模型权重在 Model Scope 和 Hugging Face 平台开放下载,继续采用 MIT License。

此次更新并非依赖参数规模扩大,而是通过改进后训练策略和投入算力深度优化,实现性能跃升,虽执行复杂任务时可能消耗更多 tokens,但被视为换取准确性和深度思考的合理代价,未来大更新值得期待。

原文和模型


【原文链接】 阅读原文 [ 2196字 | 9分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 doubao-1.5-pro-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...