Zihao Ye

Zihao Ye 是 NVIDIA 的高级编译器工程师,也是华盛顿大学的博士生。他的研究领域包括高效的 LLM 推理和机器学习编译器。

Posts by Zihao Ye

开发与优化

使用 FlashInfer 运行 NVIDIA 的高性能 LLM 推理内核

出色的 LLM 推理需要两个关键要素:速度和开发者速度。速度是指通过使用高度优化的计算内核算法,最大限度地提高底层硬件的效率。 2 MIN READ