标签:内存优化

AI Coding赛道今年最重要的变化,可能已经出现了

Tag 2: 独立客户端 (5 chars - FAIL). Change to 独立终端 (4).Tag 3: 效率提升 (4)Tag 4: 内存优化 (4)Tag 5: Agent 范式 (4? A.g.e.n.t. 6 chars vs Agents...

内存减6倍、精度0损失,推理提速8倍!谷歌新技术震撼了AI圈

Google Research团队提出的TurboQuant技术实现了大语言模型推理过程中的关键突破:将键值缓存(KV cache)压缩至原始大小的1/6,且无精度损失;在H100 GPU上...

内存通胀“终结者”?谷歌公开最新极限压缩算法

谷歌推出的TurboQuant算法实现了大模型推理阶段的极致内存压缩,核心在于重构键值缓存(KV Cache)的存储方式。该技术通过两大关键技术路径解决长期存在的内...

谷歌迎来“DeepSeek时刻”!TurboQuant引爆AI圈、全球开发者疯狂复现:6倍无损压缩,内存股集体暴跌

谷歌研究院近期发布TurboQuant压缩算法,实现了大语言模型运行中键值缓存(KV cache)的极致无损压缩:可将内存占用降低至少6倍,并在H100显卡上实现最高8倍...

推理芯片的四种方案,David Patterson撰文

大型语言模型(LLM)推理面临的核心挑战源于Transformer模型的自回归解码特性,其本质差异于训练阶段,导致内存和互连延迟成为主要瓶颈。随着MoE架构、多模态...

Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

KAIST、Mila和谷歌DeepMind团队近期发布了一种名为Mixture-of-Recursions(MoR)的全新大型语言模型(LLM)架构,该架构被认为有潜力成为Transformer的替代者...

Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?

普林斯顿大学陈丹琦团队提出统一框架解决长上下文语言模型中的KV缓存内存瓶颈问题。随着'长思维链'等技术的兴起,模型需要处理数万token的输入,导致基于Tran...

DeepSeek发布最新论文,5大杀手锏让大模型训练、推理暴涨

全球著名开源大模型平台DeepSeek发布了其最新开源模型V3的论文,重点探讨了在不牺牲性能的前提下,如何通过硬件架构和模型设计的创新突破硬件瓶颈。随着OpenA...

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

近期,阶跃星辰与清华大学等机构合作的论文《Multi-matrix Factorization Attention》提出了一种新型注意力机制架构——多矩阵分解注意力(MFA)及其变体MFA-Ke...

给机器人装上「虫脑」?非Transformer液态神经网络终于来了!MIT CSAIL负责人创业成果

Liquid AI是一家专注于开发新型人工智能模型的初创公司,由MIT计算机科学与人工智能实验室(CSAIL)的前研究人员创立。该公司旨在超越现有的生成式预训练Tran...
1 2