AI 正在通过新的数据处理、模拟和建模方法增强高性能计算 (HPC).由于这些新 AI 工作负载的计算需求,HPC 正在快速扩展。
为了使应用程序能够扩展到多 GPU 和多节点平台,HPC 工具和库必须支持这种增长。 NVIDIA 提供加速 HPC 软件解决方案的全面生态系统,帮助您的应用程序满足现代 AI 驱动工作负载的需求。
HPC SDK 24.3
除了问题修复和改进 HPC 编译器的编译时性能之外,HPC SDK 24.3 提供新功能,支持最新的 NVIDIA Grace Hopper 系统。
在使用 OpenMP Target Offload 指令进行 GPU 编程时,NVIDIA HPC 编译器提供统一的内存编译模式。这增加了对 OpenACC 中 Grace Hopper 和 HMM 系统统一内存的现有支持,以及 CUDA Fortran 和 标准并行度(stdpar) 编程模型,这些模型在 nv c++ 和 nv Fortran 中通过 `-gpu=unified` 命令行标志实现。
对于 CUDA Fortran 程序,`unified` 属性已被添加,以提供额外的类型信息。此信息使应用程序能够针对统一内存系统 (例如 Grace Hopper) 进行进一步优化。
所有这些功能以及其他性能增强功能现在已在 HPC SDK 24.3 版本中提供。有关更多信息,请参阅 HPC SDK 24.3 版本说明。
适用于 Grace CPU 的 NVIDIA 性能库
AI 模型 在云、超大规模和科学工作负载中正在发生变化。这些工作负载在不同的配置中快速扩展。NVIDIA Grace CPU 通过提供高性能、高能效和高带宽连接,解决 AI 模型日益增长的复杂性和规模问题。它将 NVIDIA 数据中心的 CPU 和 GPU 紧密合。
为了加速应用程序中的 CPU 工作负载,NVIDIA 性能库(NVPL)可替代目前许多应用程序使用的行业标准数学库。NVPL 对 Grace CPU 进行优化,使您能够将应用程序移植到 Grace 架构,而无需更改源代码。
NVPL 现已在 HPC SDK 24.3 版本中提供。
NVPL 还可用于 独立下载,其中包含 NVPL TENSOR,用于加速 Grace CPU 上的深度学习和推理,并支持 Tensor 收缩、归约和元素级运算。
用于构建和优化微服务的工具
云和高性能计算应用程序对可扩展解决方案的需求不断增加。随着应用程序跨数据中心和云的扩展,NVIDIA Nsight 开发者工具 持续发展以提供帮助。
Nsight Systems 2024.2 版本引入了新功能,以帮助您构建和优化微服务。更多信息请参阅 Nsight Systems 2024.2 文档。
已增强对 Kubernetes 和 Docker 等容器系统的分析支持,包括 Azure、Amazon、Oracle 和 Google 等主要提供商提供的 CSP Kubernetes 服务。
称为 recipe 的 Python 脚本使您能够在应用程序跨数据中心执行时执行单节点和多节点分析。然后,Nsight Systems 使用 JupyterLab 集成,以提供交互式分析和可重用的工作流程。
网络分析方法已发布,揭示了计算冷点与通信之间的关系。您可以生成多节点热图,以确定在何处进行优化 Infiniband 和 NVLink 实现峰值性能。
为了满足您编写代码的需求,服务器开发由远程 GUI 流容器提供支持。Nsight Systems 还与 Jupyter Lab 无缝集成,使您能够分析代码并直接在 Jupyter 中查看文本结果,或启动 GUI 流容器进行深入分析。
立即下载 Nsight Systems 2024.2,并开始探索。有关工具和教程的更多信息,请参阅 此处。
CUDA GPU 加速的数学库
CUDA GPU 加速的数学库 可在 HPC 应用程序中实现峰值性能。现已推出,cuDSS(预览) 是一个 GPU 加速的直接稀疏求解器库,用于求解稀疏矩阵线性系统,这在自动驾驶和过程模拟中很常见。有关更多信息,请参阅 此文:Honeywell 借助 NVIDIA cuDSS 加速工业过程模拟。
基本线性代数子程序 (BLAS) 是 AI 和 HPC 应用的基石。cuBLAS 提供 GPU 加速的 BLAS,以在峰值性能下执行这些操作。CUDA 工具包 12.4 此外,cuBLAS 增加了对单精度和双精度计算的分组批量 GEMM (通用矩阵乘法) 实验支持。分组批量模式使您能够同时求解具有以下差异的 GEMM:
- 尺寸:(m, n, k)
- 领先维度(lda、ldb、ldc)
- 转换(transa, transb)
- 缩放系数 (α,测试版)
融合 CUDA 内核中的数值运算可减少内存访问用度和内核启动用度,从而提高 GPU 加速应用程序的性能。这两个库现在均可独立下载:
除了,cuTENSOR 2.0 cuTENSOR 库已发布,全面更新 cuTENSOR 库以提高速度和灵活性。cuTENSOR 为张量计算(元素级、归约和收缩)提供了优化例程,从而加速神经网络的训练和推理。
版本 2.0 在性能和功能方面对库进行了升级,包括即时内核编译的支持。有关更多信息,请参阅 cuTENSOR 2.0:加速张量计算的综合指南。
多 GPU 多节点数学库
分布式计算为满足 AI 的计算需求提供了基础设施。大规模数据处理任务分布在多个节点和 GPU 之间并进行并行化,以加快训练和推理时间。随着 HPC 应用程序的扩展,基础数学库还必须支持新的多 GPU 多节点计算环境。
CUDA 数学库为这些计算密集型应用程序提供关键的数学算法。主机 API 扩展程序现已推出,支持数学库来解决百亿亿级 (Exascale) 问题。
cuBLASMp(预览) 是一个高性能、多进程库,适用于分布式、基础、密集线性代数。它利用 Tensor Core 加速,同时在 GPU 之间进行高效通信并同步其进程。该库可下载于 HPC SDK 或独立下载。
NVIDIA 还提供 cuSOLVERMp,用于解决分布式密集线性系统和特征值问题。此外,还提供了 cuFFTMp,用于解决多 GPU 多节点平台上的 FFT 问题。
立即开始使用 CUDA 数学库。
结束语
为使应用程序能够跨多 GPU 多节点平台进行扩展,NVIDIA 提供一个由工具、库和编译器组成的生态系统,用于大规模加速计算。加速计算是 AI 驱动的 HPC 应用程序的引擎。深入了解加速计算主题 加速计算 开发者论坛以了解更多信息。