CUDA

2025年 10月 14日

硬件一致性平台上的内存管理深入剖析

如果您是应用程序开发者或集群管理员，可能已经意识到非统一内存访问（NUMA）会对系统性能产生显著影响。

2 MIN READ

2025年 9月 29日

释放 GPU 性能：CUDA 中的全局内存访问

管理内存是编写 GPU 内核时影响性能的关键因素之一。本文将为您介绍全局内存及其对性能影响的重要知识。 CUDA 设备上存在多种类型的显存，

4 MIN READ

2025年 9月 11日

使用 NVIDIA CUDA 加速的 VC-6 构建高性能视觉 AI 工作流

NVIDIA GPU 持续提升的计算吞吐量为优化视觉 AI 工作负载带来了新的机遇：让硬件持续高效地处理数据。随着 GPU 性能的不断增强，

4 MIN READ

2025年 9月 10日

开发者现在可以直接从自己喜欢的第三方平台下载 CUDA

对开发者而言，构建和部署应用往往充满挑战，需要协调软件与硬件功能之间的复杂关系。确保每个基础软件组件不仅正确安装，而且版本符合要求，

1 MIN READ

2025年 9月 3日

借助 NVIDIA DRIVE AGX Thor 开发者套件加速智能汽车开发

智能汽车（AV）技术是快速发展的，由于更大型、更复杂的AI模型被部署于边缘端推动。如今，现代汽车不仅需要先进的感知能力和传感器融合技术，

3 MIN READ

2025年 9月 2日

适用于 Jetson Thor 的 CUDA 工具包 13.0 的新功能：统一 Arm 生态系统等

随着由 NVIDIA Blackwell GPU 架构驱动的 Jetson Thor SoC 即将支持 CUDA 13.0 版本，

4 MIN READ

2025年 9月 2日

借助启发式算法和 CUTLASS 4.2 提高 NVIDIA GPU 上的 GEMM 内核自动调整效率

为特定问题和硬件选择合适的通用矩阵乘法（GEMM）核函数是一项重大挑战。GEMM 核函数的性能由一系列编译时和运行时的元参数共同决定，

2 MIN READ

2025年 8月 27日

如何通过共享内存寄存器溢出来提高 CUDA 内核性能

当 CUDA 内核所需的硬件寄存器数量超过可用数量时，编译器会将多余的变量溢出到本地内存中，这一过程称为寄存器溢出。

3 MIN READ

2025年 8月 13日

利用 Wheel Variants 简化 CUDA 加速 Python 的安装和打包工作流程

如果您曾经安装过 NVIDIA GPU 加速的 Python 软件包，您可能遇到过这样的场景：导航到 pytorch.org、jax.dev、

4 MIN READ

2025年 8月 6日

CUDA 工具包 13.0 的新特性和重要更新

CUDA Toolkit 13.0 是该工具包的最新版本，具有加速最新 NVIDIA CPU 和 GPU 计算的优势。作为一项重大发布，

4 MIN READ

2025年 8月 4日

CUDA 专业提示：通过矢量化内存访问提高性能

许多 CUDA 内核受带宽限制，新硬件中 FLOPS 与带宽的比例不断增加，导致更多内核受带宽限制。因此，

2 MIN READ

2025年 8月 4日

GPU 架构支持导航：面向 NVIDIA CUDA 开发者的指南

如果您最近使用 NVIDIA CUDA 编译器 (NVCC) 开发 NVIDIA GPU 应用，您可能会遇到以下警告消息：这究竟意味着什么，

1 MIN READ

2025年 7月 18日

使用 JAX 和 XLA 优化推理工作负载的低延迟通信

在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码，

2 MIN READ

2025年 7月 16日

CUTLASS：基于张量和空间微核处理多维数据的原理抽象

在生成式 AI 时代，充分发挥 GPU 的潜力对于训练更好的模型和大规模服务用户至关重要。通常，

4 MIN READ

2025年 7月 16日

CUTLASS 3.x：用于 GEMM 内核设计的正交、可重用和组合抽象

GPU 上的 GEMM 优化是一个模块化问题。高性能实现需要指定超参数，例如图块形状、数学和复制指令以及线程束专用方案。

3 MIN READ

2025年 7月 9日

为 NVIDIA CUDA 内核融合提供 Python 中缺失的构建模块

CUB 和 Thrust 等 C++ 库提供高级构建块，使 NVIDIA CUDA 应用和库开发者能够编写跨架构可移植的光速代码。

2 MIN READ