DeepSeek 把R1论文又更新了60多页,V4呼之欲出了吧

AIGC动态18小时前发布 Si-Planet
65 0 0
DeepSeek 把R1论文又更新了60多页,V4呼之欲出了吧

 

文章摘要


【关 键 词】 AI研究论文更新技术拆解训练管线评测基准

DeepSeek在arXiv上更新了R1论文的版本,从22页扩展至86页,新增内容包括完整的训练管线拆解、20多个评测基准的详细数据以及技术附录。这一更新发生在R1发布一周年和农历春节前夕,引发了对DeepSeek可能即将发布新动作的猜测。

训练管线的详细拆解首次曝光了Dev1、Dev2、Dev3三个中间检查点。Dev1阶段模型指令遵循能力提升但推理能力下滑;Dev2阶段专注于恢复推理能力;Dev3阶段通过拒绝采样生成高质量数据,使模型在推理和通用任务上稳定输出。这种三段式流程解释了R1在长链推理和输出稳定性上的优势。

评测体系从原来的5个基准扩展到20多个,并引入了人类baseline进行对比。R1-Zero在训练过程中准确率从15.6%提升至77.9%,使用多数投票后达到86.7%,超过了人类平均水平。这种评测方式更直观地展示了模型的性能。

技术附录提供了GRPO实现细节、奖励函数设计等关键信息,使新版论文更像一本操作手册而非方法论阐述。论文还包括了”Unsuccessful Attempts”章节,坦承了MCTS和PRM等热门研究方向在通用推理任务上的失败,为行业提供了重要参考。

这次更新的时间点值得关注,可能与DeepSeek即将发布的新动作有关。更新内容的反常幅度也引发了多种解读:可能是技术已不再构成竞争优势,或是防御性开源策略。核心作者团队几乎零流失的情况在人才争夺激烈的AI行业相当罕见。

DeepSeek一贯采用先发论文再发模型的节奏,这次更新可能是为下一阶段技术铺路。随着春节临近,行业正密切关注DeepSeek可能的新动作。论文的全面更新不仅提高了技术透明度,也为整个开源社区提供了宝贵资源。

原文和模型


【原文链接】 阅读原文 [ 2406字 | 10分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...