高性能计算

使用 cuTENSOR v1.4 编程分布式多 GPU 张量运算

今天, NVIDIA 宣布推出 cuTENSOR 1.4 版,它支持多达 64 维张量、分布式多 GPU 张量操作,并帮助改进张量收缩性能模型。现在可以免费下载此软件。

下载 cuTENSOR 软件。

有什么新鲜事吗?

  • 支持多达 64 维张量。
  • 支持分布式多 GPU 张量操作。
  • 改进的张量收缩性能模型(即algo CUTENSOR_ALGO_DEFAULT)。
  • 改进了具有整体大收缩维度的张量收缩性能(即增加了平行收缩)。
  • 改进了具有微小收缩维度(<= 8 )的张量收缩性能。
  • 改进了张量收缩(如C[a,b,c,d] = A[b,d] * B[a,c])等外积的性能。
  • 其他错误修复。

有关更多信息,请参阅 cuTENSOR 发行说明

关于 cuTENSOR

cuTENSOR 是一个用于张量原语的高性能 CUDA 库;其主要特点包括:

  • 广泛的混合精度支持:
    • FP64输入与FP32计算。
    • FP32通过FP16BF16TF32计算输入。
    • 复杂的时代需要真正的行动。
    • 共轭(无转置)支持。

了解更多

最近的开发者帖子

 

Tags