GPU互连，ALink System破局

2,553 0 0

文章摘要

【关键词】 AI大模型、超高速互连、Scale Up、ALS开放生态、技术创新

随着人工智能（AI）大模型的快速发展，对AI基础设施，尤其是互连技术提出了更高的要求。在2024年8月8日举行的OCP开放计算中国峰会上，阿里云的超高速互连负责人孔阳博士介绍了由阿里云发起的Scale Up开放生态ALS（ALink System，加速器互连系统）。通过深入交流，我们了解到AI大模型发展对互连技术的需求主要体现在两个方面：一是算力需求的爆炸式增长，二是在线服务的实时性和高吞吐需求。然而，单颗芯片的能力受到工艺制约，不能无限扩展，因此需要通过系统设计，利用软件算法将计算任务在多个GPU芯片上进行并行计算。这就需要具备芯片间的超大带宽互连，以支持低延迟、高吞吐的推理和训练。

Scale Up互连系统是AI集群互连架构的重要组成部分，与业务网络互连和Scale Out网络互连一起，承载了不同的业务流量。Scale Up网络互连主要负责推理的大显存并行计算流量和训练的张量并行（TP）以及专家并行（MoE）流量，对性能有超高要求，因此采用专门设计的协议，如NVIDIA的NVlink及NVSwitch技术，以及近期成立的UALink（Ultra Accelerator Link）协议联盟。

Scale Up互连对于下一代AI集群架构具有显著价值。从系统视角看，Scale Up结合Scale Out进行GPU集群扩展是最合理的选择；从场景视角看，AI应用需要大量内存语义访问和跨芯片访问带宽；从芯片视角看，Scale Up需要更高的带宽和更低的延迟。因此，Scale Up互连的特点是极致的资源实现极致的性能。

针对这一需求，阿里云倡议并牵头成立了ALS（ALink System，加速器互连系统）开放生态系统，旨在解决Scale Up互连系统的行业发展规范问题。ALS包括ALS-D数据面和ALS-M管控面两个主要组成部分，为AI训练和推理场景提供丰富的能力和特性支持。ALS-D支持UALink国际标准，提供高性能内存语义访问、显存共享和在网计算加速，并支持Switch组网模式，具有超高带宽和超低时延能力。ALS-M则为不同的芯片方案提供标准化接入方案，符合此规范的设备均可灵活接入应用方系统。

开放的Scale Up生态对于AI算力基础的未来具有重要意义。开放标准可以促进技术创新，为不同厂商之间建立桥梁，实现跨平台、跨领域的合作。阿里云超高速互连负责人孔阳博士认为，在开放的Scale UP技术生态下，行业可以按照共同的路径演进，形成合力，推动关键技术快速迭代，为整个基础设施的性能、稳定性、成本、兼容性提供坚实基础。阿里云基础设施服务器研发产业合作资深总监吴灵熙也提到，开放合作组织使整个行业的参与者都能从中获益，阿里云非常积极地投身其中，共建一个公平、开放和共享的社区文化。

总之，随着AI大模型的快速发展，Scale Up互连技术成为AI基础设施的关键组成部分。阿里云发起的ALS开放生态系统为解决行业发展规范问题提供了有力支持，推动了Scale Up互连技术的创新和应用，为构建高度集成、高性能的AI算力集群系统奠定了基础。开放的Scale Up生态将对AI算力基础的未来产生深远影响，促进行业的共同发展和技术创新。