NVIDIA DLSS 技术的最新版本使用最新的 NVIDIA GPU,通过 CUDA 工具包 继续推动加速计算性能的发展。此版本的新功能,版本 12.3 包括:
- 在 Windows 上延迟加载默认内容
- 在 Windows 上单步卸载 CUDA
- 增强 NVIDIA Nsight Compute 和 NVIDIA Nsight 系统 开发者工具
CUDA 和 CUDA 工具包继续为数据科学、机器学习和深度学习、使用 LLM 进行训练和推理、图形和仿真以及科学计算等领域的所有加速计算应用提供基础。CUDA 对于帮助解决世界上最复杂的计算问题至关重要。
NVIDIA Nsight 开发者工具
最新版本的 NVIDIA Nsight 开发者工具 已包含在 CUDA 工具包中,可帮助您在 GPU 上优化和调试 CUDA 应用程序,适用于NVIDIA Grace Hopper 平台。
Nsight 计算
Nsight 计算 为 CUDA 内核提供详细的分析和分析,版本 2023.3 随 CUDA 工具包 12.3 首次亮相。此版本包含可提高性能以及数据收集和分析能力的功能。
新的 PM Sampling 功能添加了与时间相关的内核性能数据。以前,大多数性能指标是在整个内核中聚合的。这个经常请求的功能可以帮助用户发现内核中相位和时间效应(如尾部效应)中出现的性能问题(图 1)。它包含在--full
指标集。可以将其添加为 GUI 中的 PM 采样部分,也可以通过添加--section PmSampling
标志到 CLI.
Nsight Compute 2023.3 还引入了比较不同配置文件中源代码更改的功能,以了解修改对源级别性能的影响。要使用此功能,请将一份报告设置为基准,然后单击另一份报告中的“Source Comparison”(源比较)按钮,查看突出显示的源差异和相关性能指标。
使用–-lineinfo
编译核函数以启用源分辨率时,以及源文件是否已就地修改时,使用“Import Source”(导入源文件)选项或--import-source
以保留原始源代码。
如需详细了解 Nsight Compute 2023.3 功能,请参阅 Nsight Compute 入门。
Nsight Systems
CUDA 工具包 12.3 还包含 Nsight Systems 2023.3,这是一款性能调整工具,可在统一的时间轴上分析硬件指标以及 CUDA 应用、API 和库。
最新版本的 Nsight Systems 引入了对 NVIDIA Grace CPU 的支持,您可以根据应用程序的性能深入了解 Grace CPU 周期。Nsight Systems 2023.3 还添加了新功能,包括来自 GUI 的网络接口卡 (NIC) 分析。
作为数据在服务器硬件单元之间移动的主要方式,了解网络中的节点间通信将有助于诊断瓶颈。Nsight Systems 会监控 NIC 吞吐量,绘制发送和接收的字节量图表。延长的 NIC 等待时间有力地表明节点间网络需要优化。Nsight Systems 还可以分析 NVIDIA Quantum InfiniBand 交换机吞吐量。
如需详细了解 Nsight Systems 2023.3 的功能,请参阅 Nsight Systems 入门。如需更深入地了解 Nsight Systems 如何支持数据中心规模的开发,请参阅借助 NVIDIA Nsight Systems 加速数据中心和 HPC 性能分析。
总结
CUDA 工具包 12.3 版本丰富了用于加速计算的基础 NVIDIA 驱动程序和运行时软件,同时继续为最新的 NVIDIA GPU、加速库、编译器和开发者工具提供增强支持。
如需了解详情,请参阅 CUDA 文档,查看最新的 NVIDIA 深度学习培训中心 (DLI),并浏览 NGC 目录,提出问题并加入对话 CUDA 开发者论坛。