Development & Optimization

2025年 9月 23日

使用 NVIDIA TAO 6 和 NVIDIA DeepStream 8 构建实时视觉检测工作流

构建可靠的视觉检测流程以实现缺陷检测和质量控制并非易事。制造商和开发者常常面临诸多挑战，例如针对特定领域定制通用视觉 AI 模型、

3 MIN READ

2025年 9月 10日

开发者现在可以直接从自己喜欢的第三方平台下载 CUDA

对开发者而言，构建和部署应用往往充满挑战，需要协调软件与硬件功能之间的复杂关系。确保每个基础软件组件不仅正确安装，而且版本符合要求，

1 MIN READ

2025年 9月 10日

借助 NVIDIA Rivermax 和 NEIO FastSocket，更大限度地提高金融服务的低延迟网络性能

超低延迟与可靠的数据包传输是金融服务、云游戏以及媒体和娱乐等现代应用的关键需求。在这些领域中，

2 MIN READ

2025年 9月 5日

通过 CPU-GPU 显存共享加速大规模 LLM 推理和 KV 缓存卸载

大语言模型（LLM）处于人工智能创新的前沿，但其庞大的规模往往会影响推理效率。例如，Llama 3 70B 和 Llama 4 Scout…

2 MIN READ

2025年 9月 2日

借助启发式算法和 CUTLASS 4.2 提高 NVIDIA GPU 上的 GEMM 内核自动调整效率

为特定问题和硬件选择合适的通用矩阵乘法（GEMM）核函数是一项重大挑战。GEMM 核函数的性能由一系列编译时和运行时的元参数共同决定，

2 MIN READ

2025年 8月 27日

如何通过共享内存寄存器溢出来提高 CUDA 内核性能

当 CUDA 内核所需的硬件寄存器数量超过可用数量时，编译器会将多余的变量溢出到本地内存中，这一过程称为寄存器溢出。

3 MIN READ

2025年 8月 22日

NVIDIA 硬件创新和开源贡献正在塑造 AI

Cosmos、DeepSeek、Gemma、GPT-OSS、Llama、Nemotron、Phi、

2 MIN READ

2025年 8月 13日

利用 Wheel Variants 简化 CUDA 加速 Python 的安装和打包工作流程

如果您曾经安装过 NVIDIA GPU 加速的 Python 软件包，您可能遇到过这样的场景：导航到 pytorch.org、jax.dev、

4 MIN READ

2025年 8月 6日

CUDA 工具包 13.0 的新特性和重要更新

CUDA Toolkit 13.0 是该工具包的最新版本，具有加速最新 NVIDIA CPU 和 GPU 计算的优势。作为一项重大发布，

4 MIN READ

2025年 8月 4日

GPU 架构支持导航：面向 NVIDIA CUDA 开发者的指南

如果您最近使用 NVIDIA CUDA 编译器 (NVCC) 开发 NVIDIA GPU 应用，您可能会遇到以下警告消息：这究竟意味着什么，

1 MIN READ

2025年 7月 24日

使用 Torch-TensorRT 将扩散模型的 PyTorch 推理速度翻倍

NVIDIA TensorRT 是一个 AI 推理库，用于优化机器学习模型，以便在 NVIDIA GPU 上部署。

2 MIN READ

2025年 7月 18日

使用 JAX 和 XLA 优化推理工作负载的低延迟通信

在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码，

2 MIN READ

2025年 7月 16日

CUTLASS：基于张量和空间微核处理多维数据的原理抽象

在生成式 AI 时代，充分发挥 GPU 的潜力对于训练更好的模型和大规模服务用户至关重要。通常，

4 MIN READ

2025年 7月 16日

CUTLASS 3.x：用于 GEMM 内核设计的正交、可重用和组合抽象

GPU 上的 GEMM 优化是一个模块化问题。高性能实现需要指定超参数，例如图块形状、数学和复制指令以及线程束专用方案。

3 MIN READ

2025年 7月 15日

NVIDIA Dynamo 新增对亚马逊云科技服务的支持，可大规模提供经济高效的推理

亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA…

2 MIN READ

2025年 7月 9日

为 NVIDIA CUDA 内核融合提供 Python 中缺失的构建模块

CUB 和 Thrust 等 C++ 库提供高级构建块，使 NVIDIA CUDA 应用和库开发者能够编写跨架构可移植的光速代码。

2 MIN READ