CUDA

2025年 8月 13日
利用 Wheel Variant 简化 CUDA 加速 Python 的安装和打包工作流程
如果您曾经安装过 NVIDIA GPU 加速的 Python 软件包,您可能遇到过这样的场景:导航到 pytorch.org、jax.dev、
4 MIN READ

2025年 8月 6日
CUDA 工具包 13.0 的新特性和重要更新
CUDA Toolkit 13.0 是该工具包的最新版本,具有加速最新 NVIDIA CPU 和 GPU 计算的优势。作为一项重大发布,
4 MIN READ

2025年 8月 4日
CUDA 专业提示:通过矢量化内存访问提高性能
许多 CUDA 内核受带宽限制,新硬件中 FLOPS 与带宽的比例不断增加,导致更多内核受带宽限制。因此,
2 MIN READ

2025年 8月 4日
GPU 架构支持导航:面向 NVIDIA CUDA 开发者的指南
如果您最近使用 NVIDIA CUDA 编译器 (NVCC) 开发 NVIDIA GPU 应用,您可能会遇到以下警告消息: 这究竟意味着什么,
1 MIN READ

2025年 7月 18日
使用 JAX 和 XLA 优化推理工作负载的低延迟通信
在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码,
2 MIN READ

2025年 7月 16日
CUTLASS:基于张量和空间微核处理多维数据的原理抽象
在生成式 AI 时代,充分发挥 GPU 的潜力对于训练更好的模型和大规模服务用户至关重要。通常,
4 MIN READ

2025年 7月 16日
CUTLASS 3.x:用于 GEMM 内核设计的正交、可重用和组合抽象
GPU 上的 GEMM 优化是一个模块化问题。高性能实现需要指定超参数,例如图块形状、数学和复制指令以及线程束专用方案。
3 MIN READ

2025年 7月 9日
为 NVIDIA CUDA 内核融合提供 Python 中缺失的构建模块
CUB 和 Thrust 等 C++ 库提供高级构建块,使 NVIDIA CUDA 应用和库开发者能够编写跨架构可移植的光速代码。
2 MIN READ

2025年 7月 2日
先进的 NVIDIA CUDA 内核优化技术:手写 PTX
随着加速计算不断提升 AI 和科学计算各个领域的应用程序性能,人们对 GPU 优化技术的兴趣也越来越浓厚,以确保应用程序获得尽可能好的性能。
3 MIN READ

2025年 6月 18日
NVIDIA 在制造和运营领域的 AI 应用:借助 NVIDIA CUDA-X 数据科学加速 ML 模型
从晶圆制造和电路探测到封装芯片测试,NVIDIA 利用数据科学和机器学习来优化芯片制造和运营工作流程。这些阶段会产生 TB 级的数据,
3 MIN READ

2025年 6月 18日
编译器资源管理器:CUDA 开发者必备的内核实验室
您是否曾想过,当您编写 GPU 核函数时,CUDA 编译器究竟会生成什么?是否曾想与同事轻松分享精简的 CUDA 示例,
2 MIN READ

2025年 6月 17日
R²D²:利用 NVIDIA Research 构建AI驱动的3D机器人感知与地图构建技术
机器人必须感知和解释其 3D 环境,才能安全有效地行动。这对于非结构化或陌生空间中的自主导航、对象操作和远程操作等任务尤为重要。
3 MIN READ

2025年 6月 12日
借助 MMseqs2-GPU 和 NVIDIA NIM 加速蛋白质科学序列对齐
蛋白质序列对齐 (比较蛋白质序列的相似性) 是现代生物学和医学的基础。它通过重建进化关系 (技术上称为 homology…
3 MIN READ

2025年 6月 11日
使用 Siemens Teamcenter 数字现实查看器打造栩栩如生的数字孪生
现代产品通常由数百万个部件组成,需要复杂的设计和协作。工业世界在管理复杂性方面面临重大挑战,传统的可视化工具无法渲染这些大型、
1 MIN READ

2025年 6月 4日
借助 NVIDIA 多进程服务更大限度地提高 OpenMM 分子动力学吞吐量
分子动力学 (MD) 模拟模拟原子在一段时间内的相互作用,并且需要强大的计算能力。然而,许多模拟的系统规模很小 (约 400K 个原子) ,
3 MIN READ

2025年 5月 23日
AI 将脑部 MRI 转化为潜在的中风预测因子
研究人员使用 AI 分析常规脑部扫描,发现了一种前景良好的新方法,可以可靠地识别常见但难以检测的多中风先兆。
1 MIN READ