Posts by Vinod Grover
开发与优化
2025年 6月 13日
使用 FlashInfer 运行 NVIDIA 的高性能 LLM 推理内核
出色的 LLM 推理需要两个关键要素:速度和开发者速度。速度是指通过使用高度优化的计算内核算法,最大限度地提高底层硬件的效率。
2 MIN READ
高性能计算
2018年 1月 15日
使用 CUDA 扭曲级别基本体
NVIDIA GPUs 以 SIMT (单指令,多线程)方式执行称为 warps 的线程组。许多 CUDA 程序通过利用 warp…
5 MIN READ