高性能计算

使用 NSight Compute 2021 . 3 优化 GPU 利用率

NVIDIA 发布了最新的 NSight 计算 2021 . 3,它具有用于测量和建模占用率、源代码和汇编代码相关性的新功能,以及用于识别访问缓存造成的瓶颈的分层屋顶线模型。

占用率计算器

NSight Compute 2021 . 3 添加了一个新的占用率计算器活动,帮助您了解内核的硬件资源利用率,并建模调整如何影响占用率。

占用率是每个 SM 的活动扭曲与活动扭曲理论最大数量的比率。占用率低可能表示内核太小、工作负载不平衡或资源争用。所有这些都会限制 GPU 上具有特定可用资源集的内核的性能。

Screen display of the Nsight Compute Occupancy Calculator feature showing memory occupancy and GPU hardware utilization.
图 1 。 NSight 计算占用计算器的显示

命令行源页面

此版本添加了一个高要求的功能,允许直接从命令行从 GUI 中的源页面访问信息。通过使用--page source标志,用户可以在命令行上看到源代码行、 PTX 行或程序集行以及这些行的收集指标。

在分析收集的数据以及编写脚本和后期处理结果以进行进一步报告和分析时,此功能提供了额外的灵活性。

Screen capture of accessing Nsight Compute source page output through a command line prompt.
图 2 。命令行源输出功能的示例。

分层屋顶线

屋顶线图表现在支持分层屋顶线,除了设备内存之外,还为 L1 和 L2 缓存添加屋顶线。您可以查看它们的内核与每个内存级别的带宽限制有多接近,以确定它们的内核是否存在与访问内存相关的瓶颈。

Screen image of hierarchical roofline output graph to show that memory access is optimized, or needs optimizing.
图 3 . NSight 计算显示屋顶线层次结构比较。

其他增强功能

进一步的功能包括更多可配置的基线比较、从 CLI 直接访问源代码级信息以及附加的 SSH 功能。

有关调试和分析工具的更多信息,请注册加入此 NVIDIA GTC 技术会话:使用最新的开发人员工具,了解 CUDA 应用程序行为、性能和优化变得更加容易

有关更多信息,请参阅以下参考资料:

要查看最新的教程信息,请参阅 NSight 计算视频 NSight 计算员额

 

Tags