标签:掩码优化

扩散语言模型总是均匀发力,华为诺亚教它「抓重点」

本文探讨了扩散语言模型(DLLM)训练中掩码策略的优化问题,指出当前普遍采用的均匀随机掩码在处理代码与数学任务时存在效率低下问题。传统方法将所有token一...