Noa Neria

Noa Nera 是 NVIDIA 的高级系统软件工程师,目前专注于构建用于 LLM 推理的开源基础设施。她的主要技术兴趣是 LLM 推理、GPU 虚拟化和分布式系统。她在 Run:ai (被 NVIDIA 收购) 创建了包括分数 GPU 在内的核心 GPU 虚拟化技术,并在戴尔开发了获得专利的分布式 NAS 技术,从而建立了这种专业知识。Nera 博士拥有特拉维夫大学计算化学物理学博士学位。

Posts by Noa Neria

AI 平台/部署

利用 NVIDIA Run:ai 模型流技术降低大型语言模型推理的冷启动延迟

部署大语言模型(LLM)在优化推理效率方面带来了显著挑战。其中,冷启动延迟——即模型加载到 GPU 显存所需的时间较长… 5 MIN READ