高性能计算

使用最新的 Nsight Compute 进行高级内核评测

NVIDIA Nsight Compute 是用于 CUDA 应用程序的交互式内核分析器。它通过用户界面和命令行工具提供详细的性能指标和 API 调试。 Nsight Compute 2022.1 更新了数据收集模式,为性能分析提供了新的用例和选项。

立即下载>>

有什么新鲜事吗

距离重播

Nsight Compute 的这一版本扩展了现有的重播模式,提供了范围重播的高要求功能。 Range Replay 捕获并重放分析应用程序中 CUDA API 调用和内核启动的完整范围。度量与整个范围相关联,而不是单个内核。这允许该工具在不序列化的情况下执行内核,并支持出于正确性或性能原因而需要并发运行的评测内核。范围由起点和终点标记组成;并包括所有 CUDA API 调用和从任何 CPU 线程在这些标记之间启动的内核。

范围标记可以使用以下任一方法定义:

  • 分析器启动/停止 API
  • NVTX 系列

有关完整的详细信息,请参阅 Nsight Compute 的内核评测指南 中的“重播”部分。

This is a flowchart diagram of how the Range Replay feature Nsight Compute captures a range of CUDA API calls and collects performance information to display for the profiled application.This is a flowchart diagram of how the Range Replay feature Nsight Compute captures a range of CUDA API calls and collects performance information to display for the profiled application.
图 1 。范围回放可视化:捕获范围后,每个过程都会收集整个范围的性能信息。

记忆分析

在 A100 上评测时,内存分析部分中的一个新二级缓存收回策略表可以帮助您了解各种 缓存逐出策略 的访问次数和达到的命中率。在同一部分中,二级缓存表现在有一个新的 ECC 行,用于显示通过在 GPU 上启用硬件纠错代码而创建的流量。

This is a screenshot of Nsight Compute showing tables with ECC and L2 cache eviction policy information using the Memory Workload Analysis feature. This is a screenshot of Nsight Compute showing tables with ECC and L2 cache eviction policy information using the Memory Workload Analysis feature.
图 2 。内存工作负载分析表的改进: ECC 和二级缓存逐出策略信息。

引导分析

Nsight Compute 现在通过在打开报表时在摘要和详细信息页面之间动态选择,可以更轻松地在多结果集合中选择初始分析目标。规则被扩展以检测非融合浮点指令作为优化机会。最后,但并非最不重要的一点是,当触发未恢复的内存访问规则时,它们会显示一个包含五个最有价值实例的表,从而更容易在源页面上检查和解决它们。

This figure is a screen capture Nsight Compute showing a summary page of multiresult reports, with the ability to sort and optimize the order of presentation.This figure is a screen capture Nsight Compute showing a summary page of multiresult reports, with the ability to sort and optimize the order of presentation.
图 3 。打开多结果报告现在会显示摘要页面,允许您对结果进行排序并决定优化顺序。
This is a screen capture of Nsight Compute displaying how the two Uncoalesced Memory Access rules are better presented in a concise and sorted format.This is a screen capture of Nsight Compute displaying how the two Uncoalesced Memory Access rules are better presented in a concise and sorted format.
图 4 。这两种未恢复的内存访问规则都以更简洁、更有序的格式呈现结果。

其他改进

进一步的改进包括 Occupancy Calculator 自动更新。源页面中 Register Dependency 列还有一个新的“执行的线程指令”度量和注册名工具提示,以及 NVLink 更新。

在十一月的 GTC ,我们发布了展示 NVIEW 工具能力的有洞察力的资产:

资源

Tags