英韧科技董事长吴子宁：从空转到满载，AI SSD如何把闲置算力变成「有效算力」？丨存储芯片十人谈

302 0 0

文章摘要

2025 年 AI 算力进入深水区，行业瓶颈逐渐从算力本身转向数据环节。当计算集群规模扩大至万卡级别，数据供给与计算节奏的错位导致算力只能在空转中等待。存储不再仅解决“存得下”，更决定“算得快不快”。AI SSD 的关键不仅在更快的硬件，更在能否根据不同负载重构数据的组织与调度方式。传统数据冷热分层结构被打破，数据形态呈现高频交互特征，且系统对延迟波动的容忍度显著降低。随着计算体系中心迁移，GPU 开始承担调度角色，若数据经 CPU 中转将成为瓶颈，存储需具备高效组织与调度能力。

存储系统需针对 AI 负载进行系统性优化，而非简单参数堆叠。英韧科技根据训练、推理及数据管理三类典型负载形态，设计差异化主控架构与产品组合。训练场景强调带宽与稳定性，推理场景对尾延迟高度敏感，数据归集则关注容量密度与成本。针对推理场景深度优化的 AI SSD，可以显著改变系统整体效率。实测数据显示，采用特定优化方案后，系统吞吐量提升约 12 至 20 倍，首 Token 延迟从秒级缩短至毫秒级。这表明当 AI 负载规模跨越特定阈值后，存储将从辅助角色转变为关键性能变量。

未来存储技术将持续演进，接口标准从 PCIe 5.0 迈向 6.0，并融合 CXL 协议以实现更大存储池与存算一体。单靠芯片制程无法支撑性能跨越，关键在于架构层面的重构。要把吞吐量从现在的 300 万 IOPS，在两年后提升至 1 亿 IOPS，这相当于接近两个数量级的跃升。大方向需通过经验与市场反馈校准，具体路径则必须持续迭代与修正。在新一轮系统重排中，深入理解 AI 负载特征并构建差异化方案的厂商，将在系统级重构中占据有利位置。技术持续演进是常态，准确把握技术与市场趋势并据此做出前瞻性决策至关重要。