标签:长序列

阿里RTPurboV2:原生Transformer再次崛起,百步训练实现10倍稀疏注意

随着大模型应用中长序列需求的增加,传统全注意力机制因计算复杂度高而成为性能瓶颈。阿里团队推出了第二代注意力压缩技术,旨在彻底解决全注意力机制在超长...