DeepSeek 把R1论文又更新了60多页，V4呼之欲出了吧

445 0 0

文章摘要

DeepSeek在arXiv上更新了R1论文的版本，从22页扩展至86页，新增内容包括完整的训练管线拆解、20多个评测基准的详细数据以及技术附录。这一更新发生在R1发布一周年和农历春节前夕，引发了对DeepSeek可能即将发布新动作的猜测。

训练管线的详细拆解首次曝光了Dev1、Dev2、Dev3三个中间检查点。Dev1阶段模型指令遵循能力提升但推理能力下滑；Dev2阶段专注于恢复推理能力；Dev3阶段通过拒绝采样生成高质量数据，使模型在推理和通用任务上稳定输出。这种三段式流程解释了R1在长链推理和输出稳定性上的优势。

评测体系从原来的5个基准扩展到20多个，并引入了人类baseline进行对比。R1-Zero在训练过程中准确率从15.6%提升至77.9%，使用多数投票后达到86.7%，超过了人类平均水平。这种评测方式更直观地展示了模型的性能。

技术附录提供了GRPO实现细节、奖励函数设计等关键信息，使新版论文更像一本操作手册而非方法论阐述。论文还包括了”Unsuccessful Attempts”章节，坦承了MCTS和PRM等热门研究方向在通用推理任务上的失败，为行业提供了重要参考。

这次更新的时间点值得关注，可能与DeepSeek即将发布的新动作有关。更新内容的反常幅度也引发了多种解读：可能是技术已不再构成竞争优势，或是防御性开源策略。核心作者团队几乎零流失的情况在人才争夺激烈的AI行业相当罕见。

DeepSeek一贯采用先发论文再发模型的节奏，这次更新可能是为下一阶段技术铺路。随着春节临近，行业正密切关注DeepSeek可能的新动作。论文的全面更新不仅提高了技术透明度，也为整个开源社区提供了宝贵资源。