使用最新的 Nsight Compute 进行高级内核评测

NVIDIA Nsight Compute 是用于 CUDA 应用程序的交互式内核分析器。它通过用户界面和命令行工具提供详细的性能指标和 API 调试。 Nsight Compute 2022.1 更新了数据收集模式，为性能分析提供了新的用例和选项。

立即下载>>

有什么新鲜事吗

距离重播

Nsight Compute 的这一版本扩展了现有的重播模式，提供了范围重播的高要求功能。 Range Replay 捕获并重放分析应用程序中 CUDA API 调用和内核启动的完整范围。度量与整个范围相关联，而不是单个内核。这允许该工具在不序列化的情况下执行内核，并支持出于正确性或性能原因而需要并发运行的评测内核。范围由起点和终点标记组成；并包括所有 CUDA API 调用和从任何 CPU 线程在这些标记之间启动的内核。

范围标记可以使用以下任一方法定义：

分析器启动/停止 API
NVTX 系列

有关完整的详细信息，请参阅 Nsight Compute 的内核评测指南中的“重播”部分。

This is a flowchart diagram of how the Range Replay feature Nsight Compute captures a range of CUDA API calls and collects performance information to display for the profiled application. — *图 1 。范围回放可视化：捕获范围后，每个过程都会收集整个范围的性能信息。*

记忆分析

在 A100 上评测时，内存分析部分中的一个新二级缓存收回策略表可以帮助您了解各种缓存逐出策略的访问次数和达到的命中率。在同一部分中，二级缓存表现在有一个新的 ECC 行，用于显示通过在 GPU 上启用硬件纠错代码而创建的流量。

This is a screenshot of Nsight Compute showing tables with ECC and L2 cache eviction policy information using the Memory Workload Analysis feature. — *图 2 。内存工作负载分析表的改进： ECC 和二级缓存逐出策略信息。*

引导分析

Nsight Compute 现在通过在打开报表时在摘要和详细信息页面之间动态选择，可以更轻松地在多结果集合中选择初始分析目标。规则被扩展以检测非融合浮点指令作为优化机会。最后，但并非最不重要的一点是，当触发未恢复的内存访问规则时，它们会显示一个包含五个最有价值实例的表，从而更容易在源页面上检查和解决它们。