标签:计算效率
刚刚,Kimi开源新架构,开始押注线性注意力
在智能体时代,推理的计算需求成为核心瓶颈,标准注意力机制的低效问题日益凸显。线性注意力虽能降低计算复杂度,但受限于表达能力,在语言建模中表现历来不...
长文本生成迎来新突破:拓元智慧推出 DrDiff ,实现效率与质量双提升
DrDiff框架通过动态资源调度机制,解决了长文本生成中效率与质量难以兼得的根本性挑战。该框架由拓元智慧团队联合中山大学、阿里巴巴及Snap Inc的研究团队开...
Mamba 架构上顶会ICLR 2026,AI大脑核心Transformer的王座还能坐稳吗?
Transformer架构在AI大模型领域占据主导地位,但其计算复杂度和能源需求随着序列长度呈二次方增长,引发了关于其可持续性的讨论。为解决这一问题,Mamba系列...
冲上热搜!美团大模型,靠「快」火了
随着 AI 普及,模型厂商开始关注在保证准确性的前提下,如何以最少算力解决问题并快速给出回应,相关开源模型也逐渐增多。美团新开源的 LongCat - Flash - Ch...
DeepSeek发布最新论文,5大杀手锏让大模型训练、推理暴涨
全球著名开源大模型平台DeepSeek发布了其最新开源模型V3的论文,重点探讨了在不牺牲性能的前提下,如何通过硬件架构和模型设计的创新突破硬件瓶颈。随着OpenA...
GPT-4.5 发布!OpenAI 史上最大最贵也可能是最慢那个,全网都在骂大街啦
OpenAI发布了GPT-4.5模型,目前以“研究预览”形式面向Pro订阅用户(每月200美元)和API开发者开放。该模型被官方称为“迄今知识最丰富的模型”,但明确强调其并...
何恺明ResNet级神作,分形生成模型计算效率狂飙4000倍!清华校友一作
何恺明团队最近提出了一种名为「分形生成模型」的新型AI图像生成技术,该技术通过模拟自然界中的分形现象,实现了高分辨率逐像素建模,并显著提升了计算效率...
开源赛道太挤了!月之暗面开源新版Muon优化器
月之暗面近期开源了改进版优化器Muon,其计算效率较AdamW提升2倍,并在相同训练预算下显著提升模型性能。通过引入权重衰减和一致的RMS更新技术,Muon成功解决...
DeepSeek为什么采用与主流大模型不一样的MoE架构?一文搞懂什么是MoE模型
混合专家模型(MoE)通过选择性激活子模型的方式显著提升计算效率,与传统Transformer架构形成鲜明对比。MoE模型每次计算仅激活5.5%的总参数量,而Qwen、LLam...
选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化
最近,DeepSeek 和 Kimi 的推理模型更新引起了广泛关注。同时,谷歌 DeepMind、加州大学圣地亚哥分校和阿尔伯塔大学的研究者发表了一篇题为《Evolving Deeper...
1
2






