标签:架构优化
估值 1200 亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱
深度学习领域长期依赖的残差连接机制,近期因Kimi与DeepSeek的创新工作引发广泛关注。残差连接自2015年由何恺明提出后,成为Transformer等深层网络训练稳定性...
融资 1200亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱
残差连接作为深度学习模型中的基础设计,自2015年ResNet提出以来长期被视作不可动摇的“主干道”,其核心作用是保障梯度有效反传、防止信息在深层网络中丢失。...
小红书图像编辑模型开源,媲美NanoBanana Pro
小红书超级智能团队倾力打造的指令驱动图像编辑扩散模型FireRed-Image-Edit正式开源,该模型具备顶级指令理解与像素级控制力,通过系统性优化数据清洗、模型...
独家丨vivo胡柏山晋升为公司总裁,向CEO沈炜汇报
vivo内部近期发布公告,首席执行官(CEO)沈炜不再兼任公司总裁;公司执行副总裁胡柏山晋升为公司总裁并仍兼任首席运营官(COO),向沈炜汇报。伴随核心人事调整...
小红书开源首个大模型,11万亿非合成训练数据
小红书近期开源了其首个大模型dots.llm1,这是一个1420亿参数的专家混合模型(MoE),在推理过程中仅激活140亿参数,显著降低了训练和推理成本。dots.llm1的...





