扩散语言模型总是均匀发力,华为诺亚教它「抓重点」

扩散语言模型总是均匀发力,华为诺亚教它「抓重点」

 

文章摘要


【关 键 词】 扩散训练信息密度掩码优化代码推理数学建模

本文探讨了扩散语言模型(DLLM)训练中掩码策略的优化问题,指出当前普遍采用的均匀随机掩码在处理代码与数学任务时存在效率低下问题。传统方法将所有token一视同仁,忽略了序列中信息密度分布不均的现实——即关键逻辑节点(如代码分支条件、数学化简步骤)往往只占少数,却对模型能力有决定性影响。研究提出一种面向信息密度自适应的噪声调度方案:首先通过启发式规则提取高信息密度区域,再据此调整掩码概率,使模型更聚焦于核心结构而非冗余内容。实验表明,仅在LLaDA-2.0-mini基础上引入该机制,在HumanEval、MBPP、GSM8K及MATH500等基准上平均提升约4%,且未改动基础架构或增加额外模块,验证了训练范式本身蕴含未被充分挖掘的潜力。

该方法设计了双重掩码机制以兼顾逻辑推理与语言结构完整性:在优先级掩码聚焦关键骨架的同时,配合互补掩码维持上下文连贯性,形成“信息密度解耦”训练策略。这一思路被论证具有类似人类填空练习的认知直觉——高效学习取决于补全真正起作用的信息点,而非通用填充。进一步消融实验证明,硬掩码(hard masking)易导致语境坍塌(contextual collapse),引发优化不稳定;相较之下软掩码保留随机性,提升了训练稳健性。

数据效率层面,作者发现仅对10%代码数据实施该策略即可使性能从55.32提升至59.45;增至30%后趋于饱和,而100%全量应用反致数学推理能力下降,揭示出领域偏差(domain shift)风险。因此该技术并非高成本工程,只需局部引入结构化先验便能显著增强基线模型表现。

研究最后强调,掩码策略实质是模型学习注意力的分配机制;其深层价值在于促使研究者重新审视:DLLM的发展不应仅限于结构改良,更需关注“何为值得优先学习”的根本命题。后续方向可能包括基于抽象语法树(AST)的自动提取、结合模型置信度的动态调度,或构建端到端可学习的对抗式掩码模块,从而推动扩散语言模型向更具理性规划能力的方向演进。

当前很多离散扩散语言模型在训练时采用的均匀随机 masking,其实有点“平均用力”,尤其在代码和数学任务中造成资源错配核心思想是不同token的信息量不同,训练时不应一视同仁,而是应优先mask那些信息密度高的位置实验显示,仅对10%代码数据进行信息密度预处理,性能就能从55.32跃升至59.45,验证了该方法的数据效率研究指出,高信息区域若被连续硬遮,易引发语境坍塌,而软掩码因保留适当随机性,反而优化更平滑稳定论文最终主张,不应急于让模型学会所有知识,而应引导它先识别哪些内容值得优先学习

原文和模型


【原文链接】 阅读原文 [ 2681字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...