标签：长序列

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

随着大模型应用中长序列需求的增加，传统全注意力机制因计算复杂度高而成为性能瓶颈。阿里团队推出了第二代注意力压缩技术，旨在彻底解决全注意力机制在超长...

AIGC动态

2小时前