标签:模型扩展

训练MoE足足提速70%!华为只用了3招

MoE(混合专家)模型在扩展模型能力方面具有显著优势,但其训练过程中面临效率不足和资源分配不均的挑战。华为通过构建Adaptive Pipe & EDPB优化方案,解决了...

谷歌AI掌门人Jeff Dean对话Transformer作者:AI提速300%,1000万倍工程师要来了

谷歌首席科学家Jeff Dean与Transformer作者Noam Shazeer在访谈中揭示了AI技术发展的关键趋势与未来挑战。低精度计算技术的突破使模型推理速度提升三倍,从TPU...

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型

Meta公司近期发布了一项名为“记忆层”的创新研究,旨在解决预训练大模型中因参数增加而导致算力需求指数级增长的问题。记忆层通过高效查询机制,避免了遍历整...