NVIDIA 继续增强 Cutslass ,以提供对混合精度计算的广泛支持,提供专门的数据移动和多重累积抽象。今天, NVIDIA 宣布推出 Cutslass 2 . 8 版。
下载 免费 Cutslass v2 . 8 软件。
有什么新鲜事吗
- 模拟单精度 GEMM 和卷积(高达 48TFLOPs )
- 分组 GEMM 概念
- 改进的跨步 DGrad
有关更多信息,请参阅 CUTLASS 发行说明 。
关于弯刀
CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有级别和规模上实现高性能矩阵乘法( GEMM )。它结合了分层分解和数据移动的策略,类似于用于实现cuBLAS
的策略。
CUTLASS 将这些“运动部件”分解为 C ++模板类抽象的可重用和模块化的软件组件。这些线程范围、扭曲范围、块范围和设备范围的原语可以通过自定义平铺大小、数据类型和其他算法策略进行专门化和调优。由此产生的灵活性简化了它们在定制内核和应用程序中作为构建块的使用。
为了支持多种应用程序, CUTLASS 为混合精度计算提供了广泛的支持,提供了专门的数据移动,并为以下各项提供了多重累积抽象:
- 半精度浮点(
FP16
)、 BFloat16 (BF16
)和张量浮点 32 (TF32
)数据类型。 - 单精度浮点(
FP32
)数据类型。 - 双精度浮点(
FP64
)数据类型。 - 整数数据类型(
4b
和8b
)。 - 二进制数据类型(
1b
)。
此外, CUTLASS 演示了针对 NVIDIA Volta 、 Turing 和 Ampere 体系结构上实现的可编程、高通量 Tensor 核的扭曲同步矩阵乘法操作。
CUTLASS 实现了高性能卷积(隐式 GEMM )。隐式 GEMM 是作为 GEMM 的卷积运算的公式。这允许 Cutslass 通过重用高度优化的 warp-wide GEMM 组件和以下组件来构建卷积。
了解更多
- 深入研究最新的 HPC 软件 ( GTC : A31050 )
- 用弯刀中的张量核加速卷积 ( GTC : S31883 )
- NVIDIA 数学库的最新发展 ( GTC : S31754 )
- 深入研究最新的 HPC 软件 ( GTC : S31286 )
- AI 和 HPC 中稠密和稀疏线性代数的张量核加速数学库 ( GTC : CWES1098 )
- CUTLASS 产品文档
最近的开发者博客文章
- CUTLASS CUDA C 中的快速线性代数++
- 使用 NVIDIA A100 TF32 获得即时加速
- 使用 NVIDIA TF32 张量核加速人工智能训练
- 人工智能推理的 Int4 精度
- 加速 WinML 和 NVIDIA 张量核