标签:稀疏计算

韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出

MoBA(Mixture of Block Attention)是一种将混合专家原理应用于注意力机制的创新方法,通过让模型自主决定关注哪些位置,显著降低了长上下文处理的计算成本...