标签:推理优化

全网首份指令级拆解:看华为昇腾 950DT 芯片如何撬动 DeepSeek 75%降价与字节锁单

华为最新AI芯片昇腾950DT与DeepSeek V4实现了深度的协同设计与适配,标志着国产芯片开始验证支撑顶级模型低成本、高并发推理的能力。昇腾950DT并非在模型发布...

小米MiMo要蹭着DeepSeek蹦上牌桌

小米近期宣布将MiMo-V2.5系列API进行永久降价,其定价策略直接对标DeepSeek,将大模型市场的价格竞争推向新阶段。此次降价并非单纯的常规促销,而是通过将tok...

LLM近期重大架构进化一览:从Gemma 4到DeepSeek V4

随着大模型上下文窗口不断扩展,KV缓存膨胀与注意力计算成本飙升已成为制约长序列推理的核心瓶颈。近期多款主流开源模型的架构演进表明,降低长上下文推理的...

拿下1亿美元种子轮!SGLang团队创立RadixArk,打造下一代开放AI基础设施

AI基础设施企业RadixArk正式宣布完成一亿美元种子轮融资,投后估值达到四亿美元,刷新同类早期项目投资纪录。资本阵营广泛汇聚了国际头部硬件制造商、顶级创...

强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史

强化学习已成为大语言模型后训练阶段的核心技术,尤其在推动模型推理能力跃升方面发挥着关键作用。算法演进经历了从以近端策略优化为主导到多分支并行创新的...

SRAM,取代HBM?

英伟达战略性收购AI推理新秀Groq的事件引发了科技界对SRAM与HBM技术路线的深度讨论。这场交易不仅将LPU背后的SRAM技术推向台前,更揭示了AI推理阶段对存储架...

100万亿Token看懵硅谷!全球一半算力写代码,另一半在「搞颜色」 ?

2025年的AI领域呈现出前所未有的多元化与专业化发展趋势。开源模型已从闭源替代品转变为特定场景的首选,其流量占比达到30%,其中中国开源模型的崛起尤为显著...

扩散语言模型新发现:其计算潜力正在被浪费?

掩码扩散语言模型(MDLM)作为一种新兴的生成范式,挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充,具备多to...

最强3B「小钢炮」,代码数据全公开!推理随意开关,128k超长上下文

Hugging Face最新推出的30亿参数模型SmolLM3,以其全面开源和卓越性能成为小模型领域的标杆。该模型支持128k长上下文处理,并在多语言任务中展现出色表现,同...

长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级

新一代端侧AI模型MiniCPM4.0发布,包含8B和0.5B两种参数规模,在性能、速度和部署效率上实现显著突破。8B稀疏闪电版通过5%的极致稀疏度实现长文本推理速度5倍...
1 2 3