标签:稀疏化

阿里RTPurboV2:原生Transformer再次崛起,百步训练实现10倍稀疏注意

随着大模型应用中长序列需求的增加,传统全注意力机制因计算复杂度高而成为性能瓶颈。阿里团队推出了第二代注意力压缩技术,旨在彻底解决全注意力机制在超长...

单GPU就能压缩模型,性能不变参数少25%!微软提出模型稀疏化新方法

新智元报道了一项由微软研究院和苏黎世联邦理工学院联合发表在arXiv上的研究成果,名为SliceGPT。这项研究关注大语言模型(LLM)的稀疏化问题,旨在降低模型...