Posts by Mehdi Amini
开发与优化
2025年 6月 13日
使用 FlashInfer 运行 NVIDIA 的高性能 LLM 推理内核
出色的 LLM 推理需要两个关键要素:速度和开发者速度。速度是指通过使用高度优化的计算内核算法,最大限度地提高底层硬件的效率。
2 MIN READ