标签:推理优化

扩散语言模型新发现:其计算潜力正在被浪费?

掩码扩散语言模型(MDLM)作为一种新兴的生成范式,挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充,具备多to...

最强3B「小钢炮」,代码数据全公开!推理随意开关,128k超长上下文

Hugging Face最新推出的30亿参数模型SmolLM3,以其全面开源和卓越性能成为小模型领域的标杆。该模型支持128k长上下文处理,并在多语言任务中展现出色表现,同...

长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级

新一代端侧AI模型MiniCPM4.0发布,包含8B和0.5B两种参数规模,在性能、速度和部署效率上实现显著突破。8B稀疏闪电版通过5%的极致稀疏度实现长文本推理速度5倍...

以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!

随着大语言模型(LLM)参数规模的指数级增长,AI 的智力正在快速跃迁,但大模型在落地过程中面临着一系列推理层面的难题,如推理速度慢、计算成本高、部署效...

华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

混合专家模型(MoE)因其能够将不同任务分配给擅长处理的专家网络而备受关注,但专家网络的负载均衡问题成为影响系统推理性能的关键因素。某些专家网络被频繁...

上交大冷静文:模型发展需要和芯片、系统厂商协同

上海交通大学与魔形智能联合研究团队在HPCA 2025会议上发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Infer...

42.5 Exaflops:谷歌新TPU性能超越最强超算24倍,智能体协作协议A2A出炉

谷歌近日发布了第七代张量处理单元(TPU)Ironwood,标志着其AI芯片研发战略的重大转折。与前几代TPU不同,Ironwood是第一款专为推理而设计的芯片,旨在支持...

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新进展表明,通过扩展测试时计算可以显著提升模型的推理能力。OpenAI的o1系列等模型展示了这一潜力,尤其是在生成长推理链时...

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek-R1作为AI产业颠覆式创新的代表,其训练与推理成本仅为同等性能大模型的数十分之一,核心在于多头潜在注意力网络(MLA)。MLA通过对键值缓存进行低秩...

阿里要开源史上最强推理模型,性能超过DeepSeek R1。

阿里巴巴今日凌晨发布了基于Qwen2.5-Max架构的推理模型QwQ-Max-Preview,并宣布即将通过Apache 2.0许可证全面开源QwQ-Max及Qwen2.5-Max。这一举措标志着阿里...
1 2