标签:推理效率

蚂蚁dInfer框架,让扩散大语言模型推理速度再飙10倍,相同模型性能下超越自回归模型

蚂蚁集团开源了业界首个高性能扩散语言模型推理框架dInfer,旨在解决扩散模型在推理效率上的瓶颈问题。长期以来,自回归模型在自然语言处理领域占据主导地位...

更大,还能更快,更准!蚂蚁开源万亿参数语言模型Ling-1T,刷新多项SOTA

蚂蚁集团推出的Ling-1T大模型标志着开源大模型领域的重要突破。作为百灵大模型Ling 2.0系列的首款旗舰产品,该模型采用高效的MoE架构,总参数规模达到万亿级...

英伟达、港大等发布创新KV缓存,实现扩散模型无训练加速

扩散语言模型(Diffusion Language Models, dLLM)与传统的自回归模型(如GPT系列)在文本生成方式上存在显著差异。扩散模型通过逐步去除文本中的噪声来生成...

MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍

华为团队推出的Pangu Pro MoE 72B模型在昇腾平台上实现了显著的推理性能提升,通过系统级软硬协同优化,推理性能提升6~8倍。该模型采用混合专家(MoE)架构,...

博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理内存!

阿里巴巴研究团队与浙江大学合作提出了一种新的并行计算缩放定律(ParScale),该定律通过在训练和推理阶段增加并行计算量,显著提升大模型的能力,同时保持...

DeepSeek精度效率双提升,华为&信工所提出思维链“提前退出”机制

华为与中科院信工所合作提出了一种名为DEER(动态提前退出推理)的新方法,旨在解决大模型在长思维链推理中可能出现的过度思考问题。DEER的核心在于找到推理...

别让大模型想太多了,过度思考会影响性能

加州大学伯克利分校和苏黎世联邦理工学院等高校的研究人员深入探讨了大模型在执行Agent任务时面临的“过度思考”问题。过度思考是指大模型过度依赖内部推理,而...

世界最好小参数开源大模型!超谷歌、Meta,手机、平板轻松运行

法国大模型平台Mistral.AI推出了专为移动设备设计的Ministraux模型,包含3B和8B两个版本。这些模型在文本生成、推理、函数调用和效率方面表现出色,性能超越...

Meta版快慢机来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Meta的田渊栋团队最近推出了一款名为Dualformer的新型人工智能模型,该模型能够将快速和慢速思考方式无缝结合,以提高性能并降低成本。Dualformer通过在推理...

比OpenAI的Whisper快50%,最新开源语音模型

生成式AI公司aiOla在其官网开源了一款名为Whisper-Medusa的语音模型,该模型在推理效率上相较于OpenAI的Whisper模型提升了50%。Whisper-Medusa在Whisper的基...
1 2