标签:推理效率
上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值丨GAIR 2025
大模型在处理超长上下文方面已取得显著突破,部分模型如MiniMax-M1、Qwen2.5-1M已能支持百万Token级别的输入。然而,提升上下文长度仍面临巨大挑战,尤其在金...
华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源
2025年标志着大模型从单点工具向业务系统底层基础设施的转型,其中推理效率成为决定模型能否实际落地的关键因素。超大规模混合专家(MoE)模型面临计算、通信...
蚂蚁dInfer框架,让扩散大语言模型推理速度再飙10倍,相同模型性能下超越自回归模型
蚂蚁集团开源了业界首个高性能扩散语言模型推理框架dInfer,旨在解决扩散模型在推理效率上的瓶颈问题。长期以来,自回归模型在自然语言处理领域占据主导地位...
更大,还能更快,更准!蚂蚁开源万亿参数语言模型Ling-1T,刷新多项SOTA
蚂蚁集团推出的Ling-1T大模型标志着开源大模型领域的重要突破。作为百灵大模型Ling 2.0系列的首款旗舰产品,该模型采用高效的MoE架构,总参数规模达到万亿级...
英伟达、港大等发布创新KV缓存,实现扩散模型无训练加速
扩散语言模型(Diffusion Language Models, dLLM)与传统的自回归模型(如GPT系列)在文本生成方式上存在显著差异。扩散模型通过逐步去除文本中的噪声来生成...
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
华为团队推出的Pangu Pro MoE 72B模型在昇腾平台上实现了显著的推理性能提升,通过系统级软硬协同优化,推理性能提升6~8倍。该模型采用混合专家(MoE)架构,...
博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理内存!
阿里巴巴研究团队与浙江大学合作提出了一种新的并行计算缩放定律(ParScale),该定律通过在训练和推理阶段增加并行计算量,显著提升大模型的能力,同时保持...
DeepSeek精度效率双提升,华为&信工所提出思维链“提前退出”机制
华为与中科院信工所合作提出了一种名为DEER(动态提前退出推理)的新方法,旨在解决大模型在长思维链推理中可能出现的过度思考问题。DEER的核心在于找到推理...
别让大模型想太多了,过度思考会影响性能
加州大学伯克利分校和苏黎世联邦理工学院等高校的研究人员深入探讨了大模型在执行Agent任务时面临的“过度思考”问题。过度思考是指大模型过度依赖内部推理,而...
世界最好小参数开源大模型!超谷歌、Meta,手机、平板轻松运行
法国大模型平台Mistral.AI推出了专为移动设备设计的Ministraux模型,包含3B和8B两个版本。这些模型在文本生成、推理、函数调用和效率方面表现出色,性能超越...
1
2




