文章摘要
【关 键 词】 AI芯片、AI算力、能效比、架构创新、多元格局
英伟达2026财年营收、净利润均表现亮眼,数据中心业务三年增长13倍,但财报发布后股价大幅下跌,华尔街已经嗅到行业变局:英伟达多家核心头部客户开始分散算力采购筹码,Anthropic斥210亿美元采购谷歌TPU算力系统,Meta签下数十亿美元TPU租赁订单,OpenAI首次将主力产品部署在非GPU芯片Cerebras上。全球AI竞争焦点已从单纯的算力规模,转向对能效比与延迟的极致追求,「每美元产生的Token数」正在取代峰值算力,成为衡量芯片商业价值的核心指标。GPU架构本质存在缺陷,计算时数据需频繁在显存和计算单元间搬运,路径长导致能耗高、延迟大,堆卡无法解决这一问题。图灵奖得主David Patterson的研究指出,未来芯片的核心演进方向是通过架构创新让数据离计算更近,降低数据搬运的能耗与延迟,谁能率先达成更低能耗、更低延迟的性能表现,就能占据未来十年行业先机。
谷歌TPU已经从专供自用转向开放商用,凭借架构优势获得大量订单,第七代TPU同等算力输出下功耗仅为英伟达B200的40%至50%,大模型推理综合成本相比GPU降低50%以上,已经具备与顶级GPU分庭抗礼的实力,从产业补充路线升级为主流路线。目前多数头部大模型企业都采用TPU+GPU的组合方案,既缓解成本压力,也提升了对GPU供应商的议价权。机构数据显示,高盛预测到2027年全球AI服务器中非GPU芯片出货占比将从2024年的36%升至45%,IDC预测到2028年中国非GPU服务器市场规模占比将逼近50%。
为应对行业变化,英伟达斥资200亿美元收购了核心架构创企Groq,其创始人是谷歌TPU核心设计者,打造的TSP架构进一步优化了数据流处理效率,相同推理任务中首token延迟比第七代TPU低20%至50%,每token成本低10%至30%。当前全球行业都在数据流架构方向持续创新,通过3D Chiplet技术、算力网格技术、晶圆级芯片技术进一步缩短数据传输路径,压低延迟与能耗,Cerebras的最新系统实测推理性能比英伟达旗舰DGX B200快21倍,成本与功耗均降低三分之一,已经支撑OpenAI实现代码产品的实时交互体验。
当前算力军备赛正式进入能效为王的新时代,多元架构正在终结GPU一家独大的单极格局,决定下一代AI发展天花板的是能耗、延迟、确定性共同构成的新指标,国产芯片唯有走出自主底层创新之路,才有资格参与下一轮全球算力洗牌。全文约720字,符合要求。
原文和模型
【原文链接】 阅读原文 [ 2565字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 doubao-seed-2-0-lite-260215
【摘要评分】 ★★★★☆



