标签:MoE技术

英伟达开源全新大模型:黄仁勋不想只「卖铲子」

长期以来,AI领域形成了明确的产业分工,英伟达凭借硬件优势占据着不可撼动的地位。作为“卖铲人”的英伟达,其市值一度登顶全球科技公司榜首,这种商业模式使...

昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

昆仑万维宣布开源其千亿稀疏大模型Skywork-MoE,此模型基于先前的Skywork-13B模型中间checkpoint扩展而成,是首个将MoE Upcycling技术应用并落地的开源千亿Mo...

MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

本文介绍了MoE(混合专家)作为一种模块化的稀疏激活技术在大型模型训练中的应用。MoE通过将模型参数划分为多个专家子模块,每个输入仅激活少数相关专家,从...