稀疏注意力 | 学习AIGC

DeepSeek发布V3.2-Exp：引入DSA、价格腰斩，为V4、R2铺路

DeepSeek在国庆前夕发布了实验性模型DeepSeek-V3.2-Exp，核心创新是引入DeepSeek Sparse Attention（DSA）架构，首次实现细粒度稀疏注意力机制。该技术通过让...

AIGC动态

3个月前

月之暗面团队于2023年5月启动MoBA框架研发，旨在提升大语言模型处理长文本的效率与兼容性。该框架结合稀疏注意力与分布式训练技术，支持上下文长度扩展至10M...

AIGC动态

10个月前

阿里巴巴推出了Qwen2.5-Turbo版本，该版本将上下文扩展至100万tokens，大幅提升了模型的理解与生成能力。这一扩展使得Qwen2.5-Turbo能够处理10部长篇小说、15...

AIGC动态

1年前 (2024)

阿里巴巴通义大模型团队近日发布了Qwen2.5-Turbo，这是其最新语言模型Qwen2.5的升级版。新模型在多个方面进行了显著提升，尤其是在处理超长上下文的能力上，...

AIGC动态

1年前 (2024)