Posts by Afroze Syed
AI 平台/部署
2025年 9月 5日
通过 CPU-GPU 显存共享加速大规模 LLM 推理和 KV 缓存卸载
大语言模型(LLM)处于人工智能创新的前沿,但其庞大的规模往往会影响推理效率。例如,Llama 3 70B 和 Llama 4 Scout…
2 MIN READ