华为开源突破性技术Flex:ai,AI算力效率直升30%,GPU、NPU一起用

华为开源突破性技术Flex:ai,AI算力效率直升30%,GPU、NPU一起用

 

文章摘要


【关 键 词】 算力优化开源技术资源池化异构调度AI效率

华为联合三所高校发布了开源AI容器技术Flex:ai,旨在解决全球算力资源利用率低下的核心问题。当前AI产业面临算力资源严重浪费的困境:小模型任务独占整卡导致闲置,大模型任务单机算力不足,大量通用服务器因缺乏GPU/NPU处于”休眠”状态。Flex:ai通过三大核心技术突破,实现了对GPU、NPU等异构算力的精细化管理和智能调度,显著提升资源利用率。

算力资源切分技术将单张GPU或NPU卡虚拟化为多个算力单元,切分精度达10%,使单卡可同时服务多个AI工作负载。华为与上海交通大学研发的弹性资源隔离技术实现了”用多少切多少”,在保证虚拟化性能损耗低于5%的前提下,使小模型场景的算力平均利用率提升30%。厦门大学主导的跨节点拉远虚拟化技术则通过聚合空闲算力形成共享资源池,使通用服务器能通过高速网络调用远端GPU/NPU资源,集群外部碎片减少74%,高优作业吞吐量提升67%。

针对异构算力调度难题,西安交通大学与华为联合开发的Hi Scheduler智能调度器具备全局优化能力。该调度器能动态感知集群状态,结合工作负载优先级、算力需求等参数,实现资源分时复用,保障负载波动场景下的稳定运行。技术对比显示,Flex:ai的异构兼容性优于英伟达收购的Run:ai方案,其开放架构有助于推动国产算力生态标准化。

Flex:ai作为华为ModelEngine开源生态的关键组件,与Nexent智能体框架、DataMate数据工程工具形成协同。通过向魔擎社区全面开源,该项目试图构建异构算力虚拟化与AI应用平台对接的通用标准。从”万卡集群”到”一卡多用”的技术范式转变,不仅回应了全球算力优化需求,更可能重新定义AI时代的算力使用方式。

原文和模型


【原文链接】 阅读原文 [ 1366字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...