NVIDIA Nsight Compute 是用于 CUDA 应用程序的交互式内核分析器。它通过用户界面和命令行工具提供详细的性能指标和 API 调试。 Nsight Compute 2022.1 更新了数据收集模式,为性能分析提供了新的用例和选项。
有什么新鲜事吗
距离重播
Nsight Compute 的这一版本扩展了现有的重播模式,提供了范围重播的高要求功能。 Range Replay 捕获并重放分析应用程序中 CUDA API 调用和内核启动的完整范围。度量与整个范围相关联,而不是单个内核。这允许该工具在不序列化的情况下执行内核,并支持出于正确性或性能原因而需要并发运行的评测内核。范围由起点和终点标记组成;并包括所有 CUDA API 调用和从任何 CPU 线程在这些标记之间启动的内核。
范围标记可以使用以下任一方法定义:
- 分析器启动/停止 API
- NVTX 系列
有关完整的详细信息,请参阅 Nsight Compute 的内核评测指南 中的“重播”部分。
记忆分析
在 A100 上评测时,内存分析部分中的一个新二级缓存收回策略表可以帮助您了解各种 缓存逐出策略 的访问次数和达到的命中率。在同一部分中,二级缓存表现在有一个新的 ECC 行,用于显示通过在 GPU 上启用硬件纠错代码而创建的流量。
引导分析
Nsight Compute 现在通过在打开报表时在摘要和详细信息页面之间动态选择,可以更轻松地在多结果集合中选择初始分析目标。规则被扩展以检测非融合浮点指令作为优化机会。最后,但并非最不重要的一点是,当触发未恢复的内存访问规则时,它们会显示一个包含五个最有价值实例的表,从而更容易在源页面上检查和解决它们。
其他改进
进一步的改进包括 Occupancy Calculator 自动更新。源页面中 Register Dependency 列还有一个新的“执行的线程指令”度量和注册名工具提示,以及 NVLink 更新。
在十一月的 GTC ,我们发布了展示 NVIEW 工具能力的有洞察力的资产:
- 借助最新的开发工具,了解 CUDA 应用程序行为、性能和优化变得更加容易 [A31048]
- 使用 Nsight 评测工具优化 CUDA 机器学习代码 [DLIT1605]
- Nsight 计算的引导分析 演示