Posts by Jaya Shankar
数据中心/云端
2025年 7月 18日
使用 JAX 和 XLA 优化推理工作负载的低延迟通信
在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码,
2 MIN READ