Posts by Ekin Karabulut
AI 平台/部署
2025年 9月 16日
利用 NVIDIA Run:ai 模型流技术降低大型语言模型推理的冷启动延迟
部署大语言模型(LLM)在优化推理效率方面带来了显著挑战。其中,冷启动延迟——即模型加载到 GPU 显存所需的时间较长…
5 MIN READ
AI 平台/部署
2025年 9月 2日
降低模型部署成本,同时通过 GPU 显存交换保持性能
大规模部署大语言模型(LLM)面临双重挑战:一方面需保障高需求时段的快速响应能力,另一方面又要有效控制 GPU 成本。组织通常面临两难选择:
2 MIN READ
AI 平台/部署
2025年 4月 1日
NVIDIA 开源 Run:ai 调度程序以推动社区协作
今天,NVIDIA 宣布推出 KAI Scheduler 的开源版本,这是一种 Kubernetes-native GPU 调度解决方案,
3 MIN READ