高性能计算

加速 ReLu 和 GeLu 激活功能,并在 cuSPARSELt v0.2.0 中批量稀疏 GEMM

今天,英伟达宣布推出 cuSPARSELt,版本 0 . 2 . 0 ,它提高了激活函数、偏差向量和批处理稀疏 GEMM 的性能。现在可以免费下载此软件。

下载 cuSPARSELt 软件

有什么新鲜事吗?

  • 支持激活函数和偏差向量:
    • 所有内核的 ReLU +上限和阈值设置。
    • 用于 INT8 I / O 、 INT32 张量核心计算内核的 GeLU 。
  • 支持批处理稀疏 GEMM :
    • 单个稀疏矩阵/多个密集矩阵(广播)。
    • 多重稀疏和稠密矩阵。
    • 批处理偏置矢量。
  • 兼容性说明:
    • cuSPARSELt 不需要nvrtc再也没有图书馆了。
    • 对 Ubuntu 16 . 04 ( gcc-5 )的支持现在已被弃用,并将在未来的版本中删除。

有关更多技术信息,请参阅 cuSPARSELt Release Notes

cuSPARSELt

NVIDIA CUSPASSELT 是一个高性能 CUDA 库,专用于一般矩阵运算,其中至少有一个操作数是稀疏矩阵:

D=\alpha op(A)*op(B)+\beta op(C)

在这个等式中, op(A)op(B) 指的是原位操作,例如转置和非转置。

cuSPARSELt API 在算法/操作选择、尾声和矩阵特性(包括内存布局、对齐和数据类型)方面提供了灵活性。

主要特征

  • NVIDIA Sparse MMA 张量核支持
  • 混合精度计算支持:
    • FP16 I / O 、 FP32 张量核累加。
    • BFLOAT16 I / O , FP32 张量核累积。
    • INT8 I / O , INT32 张量核计算。
    • FP32 I / O , TF32 张量核心计算。
    • TF32 I / O , TF32 张量核心计算。

了解更多

最近的开发者帖子

 

Tags