标签:稀疏激活
手机实现GPT级智能,比MoE更极致的稀疏技术:省内存效果不减|对话面壁&清华肖朝军
在大模型竞争日益激烈的背景下,算力与效率的平衡成为决定胜负的关键因素。端侧部署作为大模型落地的最后一公里,长期以来面临算力瓶颈的挑战。面壁智能与清...
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
本文介绍了MoE(混合专家)作为一种模块化的稀疏激活技术在大型模型训练中的应用。MoE通过将模型参数划分为多个专家子模块,每个输入仅激活少数相关专家,从...