⚡ News

NVIDIA CUDA 13.3 重磅发布:C++ Tile编程、编译器自优化与Python 1.0全面升级

NVIDIA CUDA 13.3 重磅发布:C++ Tile编程、编译器自优化与Python 1.0全面升级

NVIDIA 近日发布了 CUDA 13.3 版本,为 CUDA 生态系统中的开发者带来了多项新功能和性能优化。此次更新的核心亮点之一是引入了 C++ 中的 NVIDIA CUDA Tile 编程模型。这一模型支持高级的、基于 Tile 的内核开发,能够自动管理复杂的底层 GPU 细节,从而实现最佳性能和跨架构的可移植性。值得一提的是,CUDA Tile 编程现在不仅支持所有已有的 GPU 架构,还扩展支持了 Compute Capability 9.0 (NVIDIA Hopper) GPU。

与此同步,NVIDIA 还正式发布了 CUDA Python 1.0 版本,显著提升了 CUDA Python 软件生态系统的支持与稳定性。新版本引入了多项关键特性,包括绿色上下文(green contexts)和进程检查点(process checkpointing),为 Python 开发者提供了更可靠的 GPU 编程体验。

对于追求极致性能的开发者而言,全新推出的 NVIDIA CompileIQ 编译器自优化框架无疑是一大福音。该框架能够为 GEMM 和 Attention 等关键内核带来高达 15% 的性能提升。此外,CUDA 13.3 还包含了 NVCC 对 C++23 的官方支持、CCCL 3.3 中通过 DLPack/mdspan 扩展的 Tensor 互操作性,以及 cuBLAS、cuSPARSE、cuSOLVER 等数学库和 Nsight Compute、Nsight Systems 等分析工具的诸多更新。

CUDA Tile C++ 正式发布

CUDA 13.3 的发布将 CUDA Tile 支持扩展到 C++,使得现有庞大的 C++ 代码库和开发者群体能够更便捷地创建高度优化的 GPU Tile 内核。该编程模型自动处理并行化、内存移动、异步操作及其他低级细节,最终生成的 C++ 代码可以在不同 NVIDIA GPU 架构间实现良好的可移植性。

CUDA Python 1.0 稳定版发布

CUDA Python 是一套将 CUDA 暴露给 Python 编程语言的库集合。此次 1.0 版本的发布,标志着 NVIDIA 对其语义版本控制的承诺:只有在主版本发布时才会引入破坏性的 API 变更。次要版本将增加新功能,而补丁版本则专注于错误修复。任何计划移除的公共 API 都将首先在次要版本中弃用,并提供清晰的替代路径。

CUDA Python 1.0 中包含的软件组件信息如下:

  • cuda.binding:CUDA C API 的低级 Python 绑定 (next major version: 13.3.0)
  • cuda.core:CUDA 运行时及其他核心功能的 Pythonic 访问 (next major version: 1.0.0)
  • cccl-cuda:Pythonic 访问 CCCL 并行算法,轻松使用 CCCL 高效且可定制的并行算法 (next major version: 1.0.0)
  • cuda-pathfinder:用于定位用户 Python 环境中安装的 CUDA 组件的实用工具 (next major version: 1.6)

此外,cuda.coop 也可在 cuda-cccl 包的 _experimental 命名空间下使用,不过其 API 仍可能发生变化。cuda.coop 提供了可重用的块级和 Warp 级设备原语,供 Numba CUDA 内核使用。

cuda.core 现已稳定

cuda.core 提供了对 CUDA 运行时的 Pythonic 接口,包括设备、流、程序、链接器、内存资源和图。1.0 版本将之前发布周期中逐步稳定的 API 整合到一个统一且受支持的接口中。同时,我们还增加了对绿色上下文的支持。

【AgentUpdate 深度解析】

NVIDIA CUDA 13.3 的发布,对于蓬勃发展的 AI Agent 生态而言,无疑注入了一剂强心针。在构建复杂 AI Agent 时,其核心挑战之一在于如何高效地利用异构计算资源,尤其是在处理大规模语言模型推理、多模态感知和决策规划时。此次更新中的 C++ Tile 编程模型,通过自动化底层 GPU 细节,显著降低了开发人员直接优化 GPU 内核的门槛。这意味着 Agent 开发者可以更专注于上层逻辑和算法创新,而无需陷入繁琐的 CUDA 编程细节中,从而加速定制化 Agent 模型的部署与性能优化。相较于传统手动优化 CUDA 内核的繁琐,Tile 编程提供了一种更高级、更具可移植性的方案,尤其在面对不同 NVIDIA GPU 架构时,能有效避免重复开发。

CUDA Python 1.0 的稳定发布,则进一步巩固了 Python 在 AI Agent 开发中的核心地位。AI Agent 社区普遍倾向于使用 Python 进行快速迭代和原型开发,稳定的 CUDA Python 接口不仅提升了开发效率,其引入的绿色上下文和进程检查点等功能,也为长时间运行、需要高可靠性的 Agent 任务(如强化学习训练、持续感知)提供了更 robust 的基础。这将使得基于 Python 的 Agent 框架能够更稳定、更高效地利用 GPU 资源。而 CompileIQ 编译器自优化框架带来的 15% 性能提升,更是直接关系到 Agent 的“思考”速度和响应能力。在实时交互或需要快速决策的 Agent 应用中,哪怕是微小的性能提升都可能带来体验上的巨大飞跃。这些技术进步共同推动 AI Agent 走向更智能、更高效、更易于开发的未来,预示着 AI Agent 在各行业的应用将加速落地,并有望催生更多创新性的 Agent 应用场景。

↗ 阅读原文