刚刚,英伟达CUDA迎来史上最大更新!

刚刚,英伟达CUDA迎来史上最大更新!

 

文章摘要


【关 键 词】 NVIDIACUDA编程模型GPU人工智能

英伟达正式发布了CUDA Toolkit 13.1,官方称其为“20年来最大的一次更新”。此次更新涵盖多项突破性技术,核心是引入了CUDA Tile编程模型,这是一种基于数据块(Tile)的高层抽象方法,允许开发者通过定义数据块及其运算来编写算法,而无需直接处理底层硬件细节。Tile模型通过CUDA Tile IR虚拟指令集和cuTile Python DSL实现,显著提升了AI算法开发效率,并能兼容未来GPU架构。当前版本仅支持Blackwell系列GPU,未来将扩展至更多硬件。

另一个重要更新是运行时API对Green Context的支持,这是一种轻量级上下文管理机制,允许开发者划分GPU资源为独立分区,确保高优先级任务(如低延迟计算)获得独占资源。同时,CUDA 13.1改进了多进程服务(MPS)功能,新增内存局部性优化分区(MLOPart)和静态SM分区,前者针对Blackwell GPU优化内存访问,后者为Ampere及以上架构提供确定性资源分配。

在数学库方面,cuBLAS新增双精度和单精度模拟功能,利用Tensor Core加速FP64矩阵运算;cuSPARSE优化了稀疏矩阵乘法API,性能较旧版提升显著;cuFFT推出设备端API,支持动态生成高效代码。性能测试显示,Blackwell GPU在批处理特征值计算(SYEVD)中较前代提速约2倍,非对称矩阵特征值计算(GEEV)在大型矩阵上提速1.7倍。

开发者工具同步升级:Nsight Compute新增Tile核函数分析功能,支持统计Tile利用率和映射高层源码;Compute Sanitizer引入编译时内存检查,通过NVCC集成提升调试效率;Nsight Systems扩展了系统级CUDA追踪能力。此外,CUDA核心计算库(CCCL)优化了CUB的浮点运算确定性选项,并简化了临时存储管理API。

此次更新标志着CUDA向更高抽象层和专业化硬件适配迈出关键一步,尤其为AI和高性能计算场景提供了更高效的开发范式。完整文档和工具包已通过英伟达开发者平台开放下载。

原文和模型


【原文链接】 阅读原文 [ 3741字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...