高性能计算

使用 cuTENSOR v1.4 编程分布式多 GPU 张量运算

2021年 11月 29日

By Matthew Nicely

点赞

今天， NVIDIA 宣布推出 cuTENSOR 1.4 版，它支持多达 64 维张量、分布式多 GPU 张量操作，并帮助改进张量收缩性能模型。现在可以免费下载此软件。

下载 cuTENSOR 软件。

有什么新鲜事吗？

支持多达 64 维张量。
支持分布式多 GPU 张量操作。
改进的张量收缩性能模型（即algo CUTENSOR_ALGO_DEFAULT）。
改进了具有整体大收缩维度的张量收缩性能（即增加了平行收缩）。
改进了具有微小收缩维度（<= 8 ）的张量收缩性能。
改进了张量收缩（如C[a,b,c,d] = A[b,d] * B[a,c]）等外积的性能。
其他错误修复。

有关更多信息，请参阅 cuTENSOR 发行说明。

关于 cuTENSOR

cuTENSOR 是一个用于张量原语的高性能 CUDA 库；其主要特点包括：

广泛的混合精度支持：
- FP64输入与FP32计算。
- FP32通过FP16、BF16或TF32计算输入。
- 复杂的时代需要真正的行动。
- 共轭（无转置）支持。

支持多达 64 维张量。
支持任意数据布局。
支持简单的可序列化数据结构。
主要计算例程的增强功能：
- 直接（即无转置）张量收缩 .
- 张量约化（包括部分约化） .
- 元素态张量运算：
  - 支持各种激活功能。
  - 任意张量置换。
  - 不同数据类型之间的转换

了解更多

关于数学库，请参见 NVIDIA 数学库的最新发展（ GTC # S31754 ）。
有关 HPC 软件的最新信息，请参阅深入研究最新的 HPC 软件（ GTC # S31286 ）。
赶上 AI 和 HPC 中稠密和稀疏线性代数的张量核加速数学库 GTC # CWES1098 ）。
阅读我们网站中的技术细节cuTENSOR 产品文档.

最近的开发者帖子

关于支持 Tensor 核的 Fortran 增强，请阅读将张量核引入标准 Fortran 。
受益于 A100 加速和读取使用 NVIDIA A100 TF32 获得即时加速。
要获得 AI 培训的好处，请参见使用 NVIDIA TF32 张量核加速人工智能训练。

点赞

Tags

高性能计算 | Higher Education / Academia | HPC / Supercomputing | Machine Learning & AI

关于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ，之前曾在美国 AL-Huntsville 的美国陆军航空和导弹研究开发与工程中心工作。在那里，他专注于 CUDA 算法开发和 Jetson 系列的优化。在 NVIDIA ，他曾在联邦部门工作，协助 CUDA 的开发和优化，以及在各种 NVIDIA 工具集上为客户提供教育和概念验证，最近转为 math libraries 产品经理。 2019 年，他获得了博士学位。计算机工程学位，专注于 GPU 的算法优化。

查看 Matthew Nicely 所有文章