长文本处理 | 学习AIGC

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

面壁智能发布了行业首个大规模训练的稀疏-线性注意力混合架构SALA及其文本模型MiniCPM-SALA，该模型通过创新架构设计显著提升了长文本处理能力和推理效率。传...

AIGC动态

5个月前

美团龙猫LongCat技术升级！新注意力机制解码速度快10倍，还能处理1M超长文本

美团龙猫LongCat系列发布全新稀疏注意力机制LoZA（LongCat ZigZag Attention），重点解决长文本任务的理解和算力难题。该技术通过改造原有的全注意力MLA机制...

AIGC动态

6个月前

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

DeepSeek团队最新发布的DeepSeek-OCR模型突破了传统OCR的局限，将文字识别与结构化信息生成结合，实现了从图片到可编辑Markdown文档的端到端转换。该模型不仅...

AIGC动态

8个月前

DeepSeek发布V3.2-Exp：引入DSA、价格腰斩，为V4、R2铺路

DeepSeek在国庆前夕发布了实验性模型DeepSeek-V3.2-Exp，核心创新是引入DeepSeek Sparse Attention（DSA）架构，首次实现细粒度稀疏注意力机制。该技术通过让...

AIGC动态

9个月前

DeepSeek V3.2 发布：长文本能力新突破，API 价格砍半

DeepSeek正式推出实验性模型DeepSeek-V3.2-Exp，该版本在V3.1-Terminus基础上引入革命性的DeepSeek稀疏注意力（DSA）技术。DSA首次实现细粒度稀疏注意力机制...

AIGC动态

9个月前

月之暗面Kimi的技术一点都不落后。

月之暗面团队于2023年5月启动MoBA框架研发，旨在提升大语言模型处理长文本的效率与兼容性。该框架结合稀疏注意力与分布式训练技术，支持上下文长度扩展至10M...

AIGC动态

1年前 (2025)

阿里发布Qwen2.5-Turbo，支持100万Tokens上下文！

阿里巴巴推出了Qwen2.5-Turbo版本，该版本将上下文扩展至100万tokens，大幅提升了模型的理解与生成能力。这一扩展使得Qwen2.5-Turbo能够处理10部长篇小说、15...

AIGC动态

2年前 (2024)

腾讯放大招，超Meta！史上参数最大，开源专家混合模型

腾讯公司在开源大模型领域推出了一款名为Hunyuan-Large的超大模型，该模型基于Transformer架构，拥有3890亿参数，其中激活参数为520亿，能够处理长达256K的上...

AIGC动态

2年前 (2024)

面壁小钢炮 3.0 重磅发布！“无限”长文本，性能超 Kimi

面壁智能最近宣布了其旗舰端侧模型“小刚炮”系列的升级，推出了全新的MiniCPM 3.0基座模型。这一新模型以4B参数实现了超越GPT-3.5的性能，同时量化后仅占用2GB...

AI-Agent

2年前 (2024)

ChatGPT 发布近两年，4B 的端侧模型已经能够复刻当年的水平

面壁智能公司近期发布了其最新的端侧基座模型MiniCPM 3.0，该模型在参数量仅为4B的情况下，宣称性能超越了ChatGPT-3.5 Turbo。这一进展标志着端侧AI技术的重...

AIGC动态

2年前 (2024)

标签：长文本处理

创新Transformer！面壁基于稀疏-线性混合架构SALA训练9B模型，端侧跑通百万上下文

美团龙猫LongCat技术升级！新注意力机制解码速度快10倍，还能处理1M超长文本

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

DeepSeek发布V3.2-Exp：引入DSA、价格腰斩，为V4、R2铺路

DeepSeek V3.2 发布：长文本能力新突破，API 价格砍半

月之暗面Kimi的技术一点都不落后。

阿里发布Qwen2.5-Turbo，支持100万Tokens上下文！

腾讯放大招，超Meta！史上参数最大，开源专家混合模型

面壁小钢炮 3.0 重磅发布！“无限”长文本，性能超 Kimi

ChatGPT 发布近两年，4B 的端侧模型已经能够复刻当年的水平

热门网址

标签：长文本处理

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址