8.9ms，推理速度新记录！1块钱百万token，浪潮信息AI服务器加速智能体产业化

81 0 0

文章摘要

浪潮信息在人工智能计算大会上发布了两款突破性产品——元脑SD200超节点和元脑HC1000超扩展AI服务器，旨在解决智能体产业化阶段的速度与成本核心挑战。元脑SD200将大模型端到端推理延迟控制在10ms以内，DeepSeek-R1的TPOT（每Token输出时间）达到8.9ms，领先前SOTA近一倍，同时实现最高16.3倍的超线性扩展率。其创新架构通过多主机3D Mesh系统、Open Fabric Switch技术及极简三层协议栈，将跨机通信延迟降至百纳秒级，并采用硬件级重传和分布式流控机制保障稳定性。

元脑HC1000则聚焦成本优化，将百万Token输出成本压缩至1元，通过解耦推理流程（Prefill/Decode分离、注意力运算与FNN分解）提升算效，单卡成本降低60%，系统均摊成本减少50%。其16卡计算模组和全对称DirectCom架构实现1.75倍推理性能提升，单卡算力利用率最高提升5.7倍。这两款产品共同应对智能体时代的两大痛点：交互速度直接影响商业竞争力，而Token消耗的指数级增长要求成本必须可控。

技术实现上，元脑SD200通过显存统一地址空间扩增8倍、64卡Scale up扩展及智能路由优化，支撑万亿参数模型的实时协作；元脑HC1000则重构硬件设计逻辑，针对推理阶段特性定制芯片资源配置。浪潮信息首席AI战略官刘军指出，当前AI算力面临规模极限、电力压力和投入产出失衡三大挑战，通用计算架构的局限性促使行业向专用化转型。未来，浪潮计划通过算法算子硬件化设计实现性能跃升，为智能体规模化部署提供可持续的算力基础。