GPU时代落幕？硅谷巨头集体「叛逃」，英伟达1500亿疯狂自救

71 0 0

文章摘要

英伟达2026财年营收、净利润均表现亮眼，数据中心业务三年增长13倍，但财报发布后股价大幅下跌，华尔街已经嗅到行业变局：英伟达多家核心头部客户开始分散算力采购筹码，Anthropic斥210亿美元采购谷歌TPU算力系统，Meta签下数十亿美元TPU租赁订单，OpenAI首次将主力产品部署在非GPU芯片Cerebras上。全球AI竞争焦点已从单纯的算力规模，转向对能效比与延迟的极致追求，「每美元产生的Token数」正在取代峰值算力，成为衡量芯片商业价值的核心指标。GPU架构本质存在缺陷，计算时数据需频繁在显存和计算单元间搬运，路径长导致能耗高、延迟大，堆卡无法解决这一问题。图灵奖得主David Patterson的研究指出，未来芯片的核心演进方向是通过架构创新让数据离计算更近，降低数据搬运的能耗与延迟，谁能率先达成更低能耗、更低延迟的性能表现，就能占据未来十年行业先机。

谷歌TPU已经从专供自用转向开放商用，凭借架构优势获得大量订单，第七代TPU同等算力输出下功耗仅为英伟达B200的40%至50%，大模型推理综合成本相比GPU降低50%以上，已经具备与顶级GPU分庭抗礼的实力，从产业补充路线升级为主流路线。目前多数头部大模型企业都采用TPU+GPU的组合方案，既缓解成本压力，也提升了对GPU供应商的议价权。机构数据显示，高盛预测到2027年全球AI服务器中非GPU芯片出货占比将从2024年的36%升至45%，IDC预测到2028年中国非GPU服务器市场规模占比将逼近50%。

为应对行业变化，英伟达斥资200亿美元收购了核心架构创企Groq，其创始人是谷歌TPU核心设计者，打造的TSP架构进一步优化了数据流处理效率，相同推理任务中首token延迟比第七代TPU低20%至50%，每token成本低10%至30%。当前全球行业都在数据流架构方向持续创新，通过3D Chiplet技术、算力网格技术、晶圆级芯片技术进一步缩短数据传输路径，压低延迟与能耗，Cerebras的最新系统实测推理性能比英伟达旗舰DGX B200快21倍，成本与功耗均降低三分之一，已经支撑OpenAI实现代码产品的实时交互体验。

当前算力军备赛正式进入能效为王的新时代，多元架构正在终结GPU一家独大的单极格局，决定下一代AI发展天花板的是能耗、延迟、确定性共同构成的新指标，国产芯片唯有走出自主底层创新之路，才有资格参与下一轮全球算力洗牌。全文约720字，符合要求。