立即下载 DOCA,开启高性能AI 网络之旅,实现“一站式” 编程
高性能计算

使用 CUTLASS v2.8 实现高性能矩阵乘法

NVIDIA 继续增强 Cutslass ,以提供对混合精度计算的广泛支持,提供专门的数据移动和多重累积抽象。今天, NVIDIA 宣布推出 Cutslass 2 . 8 版。

下载 免费 Cutslass v2 . 8 软件。

有什么新鲜事吗

  • 模拟单精度 GEMM 和卷积(高达 48TFLOPs )
  • 分组 GEMM 概念
  • 改进的跨步 DGrad

有关更多信息,请参阅 CUTLASS 发行说明

关于弯刀

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有级别和规模上实现高性能矩阵乘法( GEMM )。它结合了分层分解和数据移动的策略,类似于用于实现cuBLAS的策略。

CUTLASS 将这些“运动部件”分解为 C ++模板类抽象的可重用和模块化的软件组件。这些线程范围、扭曲范围、块范围和设备范围的原语可以通过自定义平铺大小、数据类型和其他算法策略进行专门化和调优。由此产生的灵活性简化了它们在定制内核和应用程序中作为构建块的使用。

为了支持多种应用程序, CUTLASS 为混合精度计算提供了广泛的支持,提供了专门的数据移动,并为以下各项提供了多重累积抽象:

  • 半精度浮点(FP16)、 BFloat16 (BF16)和张量浮点 32 (TF32)数据类型。
  • 单精度浮点(FP32)数据类型。
  • 双精度浮点(FP64)数据类型。
  • 整数数据类型(4b8b)。
  • 二进制数据类型(1b)。

此外, CUTLASS 演示了针对 NVIDIA Volta 、 Turing 和 Ampere 体系结构上实现的可编程、高通量 Tensor 核的扭曲同步矩阵乘法操作。

CUTLASS 实现了高性能卷积(隐式 GEMM )。隐式 GEMM 是作为 GEMM 的卷积运算的公式。这允许 Cutslass 通过重用高度优化的 warp-wide GEMM 组件和以下组件来构建卷积。

了解更多

最近的开发者博客文章

 

标签