TJ Xu

TJ Xu 是 NVIDIA 的软件工程师,致力于在 XLA 中进行横向扩展优化。

Posts by TJ Xu

数据中心/云端

使用 JAX 和 XLA 优化推理工作负载的低延迟通信

在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码, 2 MIN READ