标签:优化
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一
阿里巴巴今天凌晨开源了Qwen3系列的新版本Qwen3-235B-A22B-2507,这一版本在多个方面进行了显著优化。与之前的混合思考模型不同,新版Qwen3回归了指令微调模...
碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强
月之暗面(MoonshotAI)近期开源了其最新的大模型Kimi-K2,这是一个混合专家模型,总参数达到1万亿,其中320亿参数处于激活状态,训练数据规模高达15.5Ttoken...
深夜开源首个万亿模型K2,压力给到OpenAI,Kimi时刻要来了?
月之暗面正式发布了 Kimi K2 大模型并开源,新模型同步上线并更新了 API,价格为 16 元人民币 / 百万 token 输出。此次发布赶在了全球大模型集中发布的风口浪...
杨植麟交卷,Kimi 万亿参数K2开源:Agent能力紧逼Anthropic,延展DeepSeek,上手实测如何?
月之暗面在2025年7月11日深夜悄然开源了Kimi K2模型,这一举动标志着其在人工智能领域的重要进展。Kimi K2是一个万亿参数规模的混合专家(MoE)模型,激活参...
MoE那么大,几段代码就能稳稳推理 | 开源
华为最新开源项目Omni-Infer为超大规模混合专家网络模型(MoE)的推理提供了全面的架构、技术和代码支持。该项目旨在帮助企业用户实现高性能、易维护的推理部...
华为盘古大模型开源,推理方案、基础代码全公开!
华为今日宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型以及基于昇腾的模型推理技术。这一举措被视为华为推进昇腾生态战略的关键步骤...
2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录
谷歌正式发布了Gemma 3n完整版,这是一款面向开发者的开源大模型,具备输入图像、音频和视频的能力,并支持文本输出。Gemma 3n的设计亮点在于其天生多模态和...
微软刚发布Mu模型:支持Windows智能体,小参数跑出10倍性能
微软今天凌晨发布了创新小参数模型Mu,该模型仅有3.3亿参数,但其性能可以比肩之前发布的小参数模型Phi-3.5-mini,体量却比它小10倍左右。Mu在离线NPU的笔记...
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!
Sakana AI与AtCoder合作构建了ALE-Bench,这是一个专注于NP难题的编程基准测试,旨在评估AI在复杂优化任务中的表现。NP难题,如物流路径选择、人员排班等,因...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention(GTA)和Grouped Latent Attention(GLA),旨在优化大语言模型的推理效率和硬件...