标签:推理优化
扩散语言模型新发现:其计算潜力正在被浪费?
掩码扩散语言模型(MDLM)作为一种新兴的生成范式,挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充,具备多to...
最强3B「小钢炮」,代码数据全公开!推理随意开关,128k超长上下文
Hugging Face最新推出的30亿参数模型SmolLM3,以其全面开源和卓越性能成为小模型领域的标杆。该模型支持128k长上下文处理,并在多语言任务中展现出色表现,同...
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
新一代端侧AI模型MiniCPM4.0发布,包含8B和0.5B两种参数规模,在性能、速度和部署效率上实现显著突破。8B稀疏闪电版通过5%的极致稀疏度实现长文本推理速度5倍...
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
随着大语言模型(LLM)参数规模的指数级增长,AI 的智力正在快速跃迁,但大模型在落地过程中面临着一系列推理层面的难题,如推理速度慢、计算成本高、部署效...
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
混合专家模型(MoE)因其能够将不同任务分配给擅长处理的专家网络而备受关注,但专家网络的负载均衡问题成为影响系统推理性能的关键因素。某些专家网络被频繁...
上交大冷静文:模型发展需要和芯片、系统厂商协同
上海交通大学与魔形智能联合研究团队在HPCA 2025会议上发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Infer...
42.5 Exaflops:谷歌新TPU性能超越最强超算24倍,智能体协作协议A2A出炉
谷歌近日发布了第七代张量处理单元(TPU)Ironwood,标志着其AI芯片研发战略的重大转折。与前几代TPU不同,Ironwood是第一款专为推理而设计的芯片,旨在支持...
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场
大语言模型(LLM)在推理领域的最新进展表明,通过扩展测试时计算可以显著提升模型的推理能力。OpenAI的o1系列等模型展示了这一潜力,尤其是在生成长推理链时...
DeepSeek的MLA,任意大模型都能轻松迁移了
DeepSeek-R1作为AI产业颠覆式创新的代表,其训练与推理成本仅为同等性能大模型的数十分之一,核心在于多头潜在注意力网络(MLA)。MLA通过对键值缓存进行低秩...
阿里要开源史上最强推理模型,性能超过DeepSeek R1。
阿里巴巴今日凌晨发布了基于Qwen2.5-Max架构的推理模型QwQ-Max-Preview,并宣布即将通过Apache 2.0许可证全面开源QwQ-Max及Qwen2.5-Max。这一举措标志着阿里...
1
2





