标签:稀疏注意力
DeepSeek发布V3.2-Exp:引入DSA、价格腰斩,为V4、R2铺路
DeepSeek在国庆前夕发布了实验性模型DeepSeek-V3.2-Exp,核心创新是引入DeepSeek Sparse Attention(DSA)架构,首次实现细粒度稀疏注意力机制。该技术通过让...
月之暗面Kimi的技术一点都不落后。
月之暗面团队于2023年5月启动MoBA框架研发,旨在提升大语言模型处理长文本的效率与兼容性。该框架结合稀疏注意力与分布式训练技术,支持上下文长度扩展至10M...
阿里发布Qwen2.5-Turbo,支持100万Tokens上下文!
阿里巴巴推出了Qwen2.5-Turbo版本,该版本将上下文扩展至100万tokens,大幅提升了模型的理解与生成能力。这一扩展使得Qwen2.5-Turbo能够处理10部长篇小说、15...
阿里发布Qwen2.5-Turbo,上下文长度突破100万
阿里巴巴通义大模型团队近日发布了Qwen2.5-Turbo,这是其最新语言模型Qwen2.5的升级版。新模型在多个方面进行了显著提升,尤其是在处理超长上下文的能力上,...





