标签:训练加速

AMD新论文颠覆认知:FP4训练不稳定,原因不是随机性不足

大模型训练成本高昂,降低训练精度成为行业探索降本的重要途径。尽管较高精度已成功应用,但进一步将精度降至极低时,训练过程极易出现不稳定的问题,且传统...

刚刚,谢赛宁团队放出第二代表征自编码器

传统变分自编码器在图像生成任务中逐渐显现出效率瓶颈,其潜在空间主要记录像素级物理特征而缺乏高层语义,导致扩散模型必须从零重复学习基础视觉常识。针对...

标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源

华为、港大等机构的研究团队提出了一种基于自然语言分隔符的新型大语言模型SepLLM,通过将文本语义信息压缩至标点符号中,显著提升了训练推理效率。该方法发...

英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

英伟达团队提出了一种新的神经网络架构——归一化Transformer(nGPT),这一架构在超球面上进行表示学习,能够显著提升大型语言模型(LLM)的训练速度,同时保...