谷歌撰文复盘TPU：ASIC大有可为

51 0 0

文章摘要

谷歌研究人员详细回顾了五代张量处理单元从第二代到Ironwood的演进历程，探讨了其作为可扩展、高弹性且高能效的人工智能训练超级计算机的发展路径。尽管深度神经网络工作负载快速变化，该平台的底层微架构依然保持了惊人的稳定性，成功应对了Transformer等新型模型的兴起。在过去八年间，系统的规模与性能实现了跨越式增长。每个节点的高带宽内存容量和带宽提升了十倍，单节点峰值性能增长了一百倍。在摩尔定律放缓的背景下，超级计算机的整体系统级性能实现了高达三千六百倍的显著提升，直接寻址共享内存更是扩展了约四百倍。

为了支撑超大规模集群的稳定运行，系统在弹性与容错机制上进行了深度优化。通过引入光路开关技术，不仅绕过了故障路由以提高可用性，还大幅简化了资源调度并缩短了部署时间。针对静默数据损坏等硬件缺陷挑战，最新一代产品集成了功能内置自测试引擎与硬件重放单元，能够在零性能开销下实现高效的错误检测与隔离。在软件层面，加速线性代数框架始终保持核心地位，结合即时自动微分系统与底层内核语言，为开发者提供了从高级优化到细粒度控制的全面支持。

在数据中心电力获取日益困难的趋势下，能效与可持续性成为系统设计的核心考量。历代产品在每瓦性能上持续突破，同时大幅降低了每次浮点运算的碳排放量，有效减少了大规模计算对环境的影响。通过系统级组件的平衡设计与液冷等散热技术的演进，硬件封装与电源传输的复杂性得到了妥善管理。基于上述技术积累与实践经验，研究最终提炼出未来十年成功的人工智能训练加速器所必须具备的六大关键特征，为下一代计算架构的发展指明了方向。