今天, NVIDIA 宣布推出 cuTENSOR 1.4 版,它支持多达 64 维张量、分布式多 GPU 张量操作,并帮助改进张量收缩性能模型。现在可以免费下载此软件。
有什么新鲜事吗?
- 支持多达 64 维张量。
- 支持分布式多 GPU 张量操作。
- 改进的张量收缩性能模型(即
algo CUTENSOR_ALGO_DEFAULT
)。 - 改进了具有整体大收缩维度的张量收缩性能(即增加了平行收缩)。
- 改进了具有微小收缩维度(<= 8 )的张量收缩性能。
- 改进了张量收缩(如
C[a,b,c,d] = A[b,d] * B[a,c]
)等外积的性能。 - 其他错误修复。
有关更多信息,请参阅 cuTENSOR 发行说明 。
关于 cuTENSOR
cuTENSOR 是一个用于张量原语的高性能 CUDA 库;其主要特点包括:
- 广泛的混合精度支持:
FP64
输入与FP32
计算。FP32
通过FP16
、BF16
或TF32
计算输入。- 复杂的时代需要真正的行动。
- 共轭(无转置)支持。
- 支持多达 64 维张量。
- 支持任意数据布局。
- 支持简单的可序列化数据结构。
- 主要计算例程的增强功能:
- 直接(即无转置)张量收缩 .
- 张量约化(包括部分约化) .
- 元素态张量运算 :
- 支持各种激活功能。
- 任意张量置换。
- 不同数据类型之间的转换
了解更多
- 关于数学库,请参见 NVIDIA 数学库的最新发展 ( GTC # S31754 )。
- 有关 HPC 软件的最新信息,请参阅 深入研究最新的 HPC 软件 ( GTC # S31286 )。
- 赶上 AI 和 HPC 中稠密和稀疏线性代数的张量核加速数学库 GTC # CWES1098 )。
- 阅读我们网站中的技术细节cuTENSOR 产品文档.
最近的开发者帖子
- 关于支持 Tensor 核的 Fortran 增强,请阅读 将张量核引入标准 Fortran 。
- 受益于 A100 加速和读取 使用 NVIDIA A100 TF32 获得即时加速 。
- 要获得 AI 培训的好处,请参见 使用 NVIDIA TF32 张量核加速人工智能训练 。