标签：算力节约

估值 1200 亿后 Kimi 再扔王牌，新架构爆改 Transformer 老配件，比 DeepSeek 同款还省钱

深度学习领域长期依赖的残差连接机制，近期因Kimi与DeepSeek的创新工作引发广泛关注。残差连接自2015年由何恺明提出后，成为Transformer等深层网络训练稳定性...

AIGC动态

1个月前

融资 1200亿后 Kimi 再扔王牌，新架构爆改 Transformer 老配件，比 DeepSeek 同款还省钱

残差连接作为深度学习模型中的基础设计，自2015年ResNet提出以来长期被视作不可动摇的“主干道”，其核心作用是保障梯度有效反传、防止信息在深层网络中丢失。...

AIGC动态

1个月前

MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」

本文介绍了MoE（混合专家）作为一种模块化的稀疏激活技术在大型模型训练中的应用。MoE通过将模型参数划分为多个专家子模块，每个输入仅激活少数相关专家，从...

AIGC动态

2年前 (2024)