Nick Comly

Nick Comly 是 NVIDIA 深度学习推理的产品经理。他致力于将 TensorRT 推理优化的功能直接应用于 PyTorch 、 TensorFlow 、 MXNet 、 ONNX 和飞浆等框架。 Nick 在斯坦福大学获得硕士学位,专攻深度学习和优化。

Posts by Nick Comly

数据中心/云端

Llama 3.2 全栈优化释放 NVIDIA GPU 的高性能

Meta 最近发布了 Llama 3.2 系列视觉语言模型(VLM),其中包含 11B 参数和 90B 参数变体。这些模型是多模态模型, 2 MIN READ
数据中心/云端

借助 NVIDIA TensorRT-LLM 分块预填充提高 AI 推理效率和简化部署

在本 博文 中,我们详细介绍了分块预填充,这是 NVIDIA TensorRT-LLM 的一项功能, 1 MIN READ
AI 平台/部署

NVIDIA TensorRT-LLM KV 缓存早期重用实现首个令牌速度 5 倍提升

在上一篇 博客文章 中,我们展示了通过将键值 (KV) 缓存卸载到 CPU 内存来重复使用该缓存如何在基于 x86 的 NVIDIA… 2 MIN READ
数据中心/云端

NVIDIA NVLink 和 NVIDIA NVSwitch 加速大语言模型推理性能

大型语言模型(LLM)越来越大,增加了处理推理请求所需的计算量。为了满足服务当今LLM的实时延迟要求,并为尽可能多的用户提供服务, 3 MIN READ
数据中心/云端

NVIDIA TensorRT 10.0 升级可用性、性能和 AI 模型支持

NVIDIA 今天宣布最新发布的 NVIDIA TensorRT,一个用于高性能深度学习推理的 API 生态系统。 2 MIN READ
生成式人工智能/大语言模型

现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM, 3 MIN READ