开发与优化

2025年 10月 14日
借助 NVIDIA Parabricks 提高变体识别准确性
NVIDIA Parabricks 是一款专为数据科学家和生物信息学家设计的可扩展基因组学软件套件,专注于基因数据的二级分析。
3 MIN READ

2025年 10月 14日
借助 QuTip 和 scQubits 中的 NVIDIA cuQuantum 集成加速量子位研究
NVIDIA cuQuantum 是一个软件开发工具包(SDK),可加速电路级(数字)和器件级(模拟)的量子模拟。
2 MIN READ

2025年 10月 7日
使用 NVIDIA TensorRT Model Optimizer 剪枝和蒸 LLM
大语言模型(LLM)在自然语言处理(NLP)任务,如代码生成、推理和数学计算等方面,展现出卓越的性能,树立了新的标杆。然而,
3 MIN READ

2025年 9月 29日
释放 GPU 性能:CUDA 中的全局内存访问
管理内存是编写 GPU 内核时影响性能的关键因素之一。本文将为您介绍全局内存及其对性能影响的重要知识。 CUDA 设备上存在多种类型的显存,
4 MIN READ

2025年 9月 23日
使用 NVIDIA TAO 6 和 NVIDIA DeepStream 8 构建实时视觉检测工作流
构建可靠的视觉检测流程以实现缺陷检测和质量控制并非易事。制造商和开发者常常面临诸多挑战,例如针对特定领域定制通用视觉 AI 模型、
3 MIN READ

2025年 9月 10日
开发者现在可以直接从自己喜欢的第三方平台下载 CUDA
对开发者而言,构建和部署应用往往充满挑战,需要协调软件与硬件功能之间的复杂关系。确保每个基础软件组件不仅正确安装,而且版本符合要求,
1 MIN READ

2025年 9月 10日
借助 NVIDIA Rivermax 和 NEIO FastSocket,更大限度地提高金融服务的低延迟网络性能
超低延迟与可靠的数据包传输是金融服务、云游戏以及媒体和娱乐等现代应用的关键需求。在这些领域中,
2 MIN READ

2025年 9月 5日
通过 CPU-GPU 显存共享加速大规模 LLM 推理和 KV 缓存卸载
大语言模型(LLM)处于人工智能创新的前沿,但其庞大的规模往往会影响推理效率。例如,Llama 3 70B 和 Llama 4 Scout…
2 MIN READ

2025年 9月 2日
借助启发式算法和 CUTLASS 4.2 提高 NVIDIA GPU 上的 GEMM 内核自动调整效率
为特定问题和硬件选择合适的通用矩阵乘法(GEMM)核函数是一项重大挑战。GEMM 核函数的性能由一系列编译时和运行时的元参数共同决定,
2 MIN READ

2025年 8月 27日
如何通过共享内存寄存器溢出来提高 CUDA 内核性能
当 CUDA 内核所需的硬件寄存器数量超过可用数量时,编译器会将多余的变量溢出到本地内存中,这一过程称为寄存器溢出。
3 MIN READ

2025年 8月 22日
NVIDIA 硬件创新和开源贡献正在塑造 AI
Cosmos、DeepSeek、Gemma、GPT-OSS、Llama、Nemotron、Phi、
2 MIN READ

2025年 8月 13日
利用 Wheel Variants 简化 CUDA 加速 Python 的安装和打包工作流程
如果您曾经安装过 NVIDIA GPU 加速的 Python 软件包,您可能遇到过这样的场景:导航到 pytorch.org、jax.dev、
4 MIN READ

2025年 8月 6日
CUDA 工具包 13.0 的新特性和重要更新
CUDA Toolkit 13.0 是该工具包的最新版本,具有加速最新 NVIDIA CPU 和 GPU 计算的优势。作为一项重大发布,
4 MIN READ

2025年 8月 4日
GPU 架构支持导航:面向 NVIDIA CUDA 开发者的指南
如果您最近使用 NVIDIA CUDA 编译器 (NVCC) 开发 NVIDIA GPU 应用,您可能会遇到以下警告消息: 这究竟意味着什么,
1 MIN READ

2025年 7月 24日
使用 Torch-TensorRT 将扩散模型的 PyTorch 推理速度翻倍
NVIDIA TensorRT 是一个 AI 推理库,用于优化机器学习模型,以便在 NVIDIA GPU 上部署。
2 MIN READ

2025年 7月 18日
使用 JAX 和 XLA 优化推理工作负载的低延迟通信
在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码,
2 MIN READ