Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

文章摘要
【关 键 词】 扩散语言模型、自回归模型、并行生成、训练挑战、开源项目
扩散语言模型(DLM)因其并行生成能力而备受关注,但其训练效率仍落后于自回归模型(AR)。Radical Numerics团队通过改造现有AR模型,开发了迄今为止规模最大的开源扩散语言模型RND1-Base。该模型基于预训练的Qwen3-30BA3B转换而来,采用稀疏MoE架构,激活参数达3B,并通过500B token的持续预训练实现完整扩散行为。研究系统性探索了自回归到扩散(A2D)转换的关键因素,如初始化策略、层级学习率和临界批大小,证明了简单技术组合可实现可扩展的DLM。
在技术实现上,团队提出简单持续预训练(SCP)方法,通过替换因果掩码为双向掩码,并采用学习率预热,避免了早期复杂流程的不稳定性。层级学习率策略有效缓解了灾难性遗忘问题:注意力层使用较高学习率适应双向上下文,而非注意力层(如MLP)采用低学习率保留AR预训练知识。实验显示,扩散训练能有效利用更大batch size,40亿参数模型的临界批大小可达800万token。
RND1在多项基准测试中表现优异。在通用推理(MMLU、ARC-C等)、STEM(GSM8K)和代码生成(MBPP)任务中,其性能稳定超越Dream-7B和LLaDA-8B,同时保持了基础AR模型的优势。这表明将DLM扩展到80亿参数以上具有可行性,A2D转换可能是更优策略。不过,研究未与最新LLaDA-MoE-7B-A1B进行对比,两者性能差异需进一步验证。
这项研究体现了Radical Numerics的核心方法论:通过自动化实验循环快速验证架构创新,而非完全重构系统。团队创始人Michael Poli强调,其目标是构建能递归自我改进的AI研究平台。RND1作为该理念的首个成果,展示了混合架构与自动化优化的潜力。相关技术报告、代码和模型已全面开源,为后续研究提供了重要参考。
原文和模型
【原文链接】 阅读原文 [ 1920字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆