加速 ReLu 和 GeLu 激活功能，并在 cuSPARSELt v0.2.0 中批量稀疏 GEMM

今天，英伟达宣布推出 cuSPARSELt，版本 0 . 2 . 0 ，它提高了激活函数、偏差向量和批处理稀疏 GEMM 的性能。现在可以免费下载此软件。

支持激活函数和偏差向量：
- 所有内核的 ReLU +上限和阈值设置。
- 用于 INT8 I / O 、 INT32 张量核心计算内核的 GeLU 。
支持批处理稀疏 GEMM ：
- 单个稀疏矩阵/多个密集矩阵（广播）。
- 多重稀疏和稠密矩阵。
- 批处理偏置矢量。
兼容性说明：
- cuSPARSELt 不需要nvrtc再也没有图书馆了。
- 对 Ubuntu 16 . 04 （ gcc-5 ）的支持现在已被弃用，并将在未来的版本中删除。

有关更多技术信息，请参阅 cuSPARSELt Release Notes 。

NVIDIA CUSPASSELT 是一个高性能 CUDA 库，专用于一般矩阵运算，其中至少有一个操作数是稀疏矩阵：

$D=\alpha op(A)*op(B)+\beta op(C)$

在这个等式中， $op(A)$ 和 $op(B)$ 指的是原位操作，例如转置和非转置。

cuSPARSELt API 在算法/操作选择、尾声和矩阵特性（包括内存布局、对齐和数据类型）方面提供了灵活性。

有关数学库的更多信息，请参见 Recent Developments in NVIDIA Math Libraries （ GTC 2021 # S31754 ）。
要获取 HPC 软件的最新信息，请参阅 A Deep Dive into the latest HPC software （ GTC 2021 # S31286 ）。
赶上 Tensor Core-Accelerated Math Libraries for Dense and Sparse Linear Algebra in AI and HPC （ GTC 2021 # CWES1098 ）。
请阅读 cuSPARSELt Product Documentation 中的技术详细信息。

Tags