标签:信息密度

ICLR最佳论文:Transformer天生简洁

研究借助高维度平铺难题构建推演模型,证实参数仅呈多项式级别的网络能够精准表征复杂度呈双重指数级的空间约束关系。注意力机制在此承担起全局校验职责,依...

扩散语言模型总是均匀发力,华为诺亚教它「抓重点」

本文探讨了扩散语言模型(DLLM)训练中掩码策略的优化问题,指出当前普遍采用的均匀随机掩码在处理代码与数学任务时存在效率低下问题。传统方法将所有token一...