CUDA

2025年 9月 3日
借助 NVIDIA DRIVE AGX Thor 开发者套件加速自动驾驶汽车开发
自动驾驶汽车(AV)技术是快速发展的,由于更大型、更复杂的AI模型被部署于边缘端推动。如今,现代汽车不仅需要先进的感知能力和传感器融合技术,
3 MIN READ

2025年 9月 2日
适用于 Jetson Thor 的 CUDA 工具包 13.0 的新功能:统一 Arm 生态系统等
随着由 NVIDIA Blackwell GPU 架构驱动的 Jetson Thor SoC 即将支持 CUDA 13.0 版本,
4 MIN READ

2025年 9月 2日
借助启发式算法和 CUTLASS 4.2 提高 NVIDIA GPU 上的 GEMM 内核自动调整效率
为特定问题和硬件选择合适的通用矩阵乘法(GEMM)核函数是一项重大挑战。GEMM 核函数的性能由一系列编译时和运行时的元参数共同决定,
2 MIN READ

2025年 8月 27日
如何通过共享内存寄存器溢出来提高 CUDA 内核性能
当 CUDA 内核所需的硬件寄存器数量超过可用数量时,编译器会将多余的变量溢出到本地内存中,这一过程称为寄存器溢出。
3 MIN READ

2025年 8月 13日
利用 Wheel Variants 简化 CUDA 加速 Python 的安装和打包工作流程
如果您曾经安装过 NVIDIA GPU 加速的 Python 软件包,您可能遇到过这样的场景:导航到 pytorch.org、jax.dev、
4 MIN READ

2025年 8月 6日
CUDA 工具包 13.0 的新特性和重要更新
CUDA Toolkit 13.0 是该工具包的最新版本,具有加速最新 NVIDIA CPU 和 GPU 计算的优势。作为一项重大发布,
4 MIN READ

2025年 8月 4日
CUDA 专业提示:通过矢量化内存访问提高性能
许多 CUDA 内核受带宽限制,新硬件中 FLOPS 与带宽的比例不断增加,导致更多内核受带宽限制。因此,
2 MIN READ

2025年 8月 4日
GPU 架构支持导航:面向 NVIDIA CUDA 开发者的指南
如果您最近使用 NVIDIA CUDA 编译器 (NVCC) 开发 NVIDIA GPU 应用,您可能会遇到以下警告消息: 这究竟意味着什么,
1 MIN READ

2025年 7月 18日
使用 JAX 和 XLA 优化推理工作负载的低延迟通信
在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码,
2 MIN READ

2025年 7月 16日
CUTLASS:基于张量和空间微核处理多维数据的原理抽象
在生成式 AI 时代,充分发挥 GPU 的潜力对于训练更好的模型和大规模服务用户至关重要。通常,
4 MIN READ

2025年 7月 16日
CUTLASS 3.x:用于 GEMM 内核设计的正交、可重用和组合抽象
GPU 上的 GEMM 优化是一个模块化问题。高性能实现需要指定超参数,例如图块形状、数学和复制指令以及线程束专用方案。
3 MIN READ

2025年 7月 9日
为 NVIDIA CUDA 内核融合提供 Python 中缺失的构建模块
CUB 和 Thrust 等 C++ 库提供高级构建块,使 NVIDIA CUDA 应用和库开发者能够编写跨架构可移植的光速代码。
2 MIN READ

2025年 7月 2日
先进的 NVIDIA CUDA 内核优化技术:手写 PTX
随着加速计算不断提升 AI 和科学计算各个领域的应用程序性能,人们对 GPU 优化技术的兴趣也越来越浓厚,以确保应用程序获得尽可能好的性能。
3 MIN READ

2025年 6月 18日
NVIDIA 在制造和运营领域的 AI 应用:借助 NVIDIA CUDA-X 数据科学加速 ML 模型
从晶圆制造和电路探测到封装芯片测试,NVIDIA 利用数据科学和机器学习来优化芯片制造和运营工作流程。这些阶段会产生 TB 级的数据,
3 MIN READ

2025年 6月 18日
编译器资源管理器:CUDA 开发者必备的内核实验室
您是否曾想过,当您编写 GPU 核函数时,CUDA 编译器究竟会生成什么?是否曾想与同事轻松分享精简的 CUDA 示例,
2 MIN READ

2025年 6月 17日
R²D²:利用 NVIDIA Research 构建AI驱动的3D机器人感知与地图构建技术
机器人必须感知和解释其 3D 环境,才能安全有效地行动。这对于非结构化或陌生空间中的自主导航、对象操作和远程操作等任务尤为重要。
3 MIN READ