云天励飞罗忆:推理超越训练,国产算力的真正战场在生态与成本丨GAIR 2025
文章摘要
【关 键 词】 AI算力、推理成本、国产芯片、生态融入、普惠AI
第八届GAIR全球人工智能与机器人大会聚焦AI算力新十年的发展趋势,云天励飞副总裁罗忆在主题演讲中系统阐述了国产芯片路径与AI普惠化的核心观点。他指出,当前AI产业正经历从训练到推理的范式转移,推理算力消耗首次超越训练,成为产业主战场。这一转变标志着AI技术从”发电”阶段进入”用电”阶段,推动行业关注点转向如何降低推理成本、提升规模化落地能力。
在技术演进层面,罗忆揭示了Scaling Law带来的连锁反应:算力瓶颈已从单一芯片扩展到系统级方案,催生了对”超节点”等新型基础设施的需求。同时,模型迭代周期从数月压缩至数周,市场加速度对芯片公司的全栈能力提出更高要求。面对这一挑战,云天励飞采取”两条腿走路”策略:既坚持发展RISC-V等国产生态,又主动兼容CUDA主流生态以降低客户迁移成本。
成本问题被明确为AI普惠化的核心障碍。随着长上下文理解、私域知识融合等需求增长,单位token成本呈几何级数上升。罗忆提出,必须通过稀疏化、蒸馏、量化等技术手段,将百万Token成本从当前的10-20元降至1元以内,才能实现”人工智能+”计划要求的行业渗透率。这一目标需要芯片架构的突破性创新,特别是解决显存容量、互联带宽等系统级瓶颈。
在国产算力发展路径上,演讲勾勒出清晰的”数据飞轮”逻辑:应用落地产生数据,数据优化算法,算法定义芯片,芯片再赋能应用。与美国的”技术制高点”战略不同,中国更强调通过行业应用反哺技术生态。罗忆特别提到参与中移动OISA体系的实践,通过产业协同攻关超节点、芯片互联等关键技术,推动国产芯片在万亿级MoE大模型推理场景中的Scale-up能力。
技术路线选择上,云天励飞提出GPNPU=GPGPU+NPU+3DM的融合架构:在软件层保持CUDA兼容性,在硬件层继承NPU能效优势,同时通过3D Memory技术突破存储限制。这种设计旨在平衡性能、成本与精度三角关系,特别是解决解码阶段”算力等数据”的典型瓶颈。公司第五代芯片将全面转向该架构,并基于D2D Chiplet和国产工艺实现端边云全场景覆盖。
生态建设被反复强调为国产芯片突围的关键。罗忆指出,当前技术栈深度和广度已形成”互为生态”格局,任何企业都需要在细分领域建立长板优势,通过价值交换获得生态融入机会。云天励飞的策略是”先进头部圈子”,通过与标杆客户共创验证,逐步构建可复制的商业化路径。这种务实态度反映了中国AI产业从技术突破向工程化落地的重要转向。
演讲最后展望了未来3-5年的行业图景:推理基础设施将走向异构化,通过计算与访存分离、模型规模分级等方式实现最优性价比。罗忆呼吁更多企业加入3DM等国产技术路线,共同突破供应链限制,最终实现”用得起、用得久、用得广”的AI普惠目标。这一愿景与GAIR大会”连接技术前沿与产业实践”的宗旨深度契合,为AI算力新十年提供了切实可行的发展框架。
原文和模型
【原文链接】 阅读原文 [ 5624字 | 23分钟 ]
【原文作者】 雷峰网
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




