Posts by Jamie Li
数据中心/云端
2025年 9月 17日
用于降低 AI 推理延迟的预测性解码简介
使用大语言模型(LLM)生成文本时,通常会面临一个基本瓶颈。尽管 GPU 能够提供强大的计算能力,但由于自回归生成本质上是顺序进行的,
2 MIN READ