NVIDIA 很高兴能与 Colfax、Together.ai、Meta 和普林斯顿大学合作,利用 Hopper GPU 架构和 Tensor Core,加速关键的融合注意力内核,使用 CUTLASS 3。
FlashAttention-3 采用关键技术,相比使用 FP16 的 FlashAttention-2,性能提升 1.5–2.0 倍,最高可达 740 TFLOPS。另外,在使用 FP8 时,FlashAttention-3 可达到高达 1.2 PFLOPS,且误差比基准 FP8 注意力小 2.6 倍。
CUTLASS 是一个开源 CUDA 库,旨在支持深度学习和 HPC 从业者在 NVIDIA Tensor Core GPU 上实现高速性能,涵盖自定义算法和研究、生产工作负载等多种场景。
有关协作的更多信息,请参阅 FlashAttention-3:快速准确的注意力与异步技术和低精度帖子,以及 研究论文。