郝尚荣

郝尚荣,NVIDIA 深度学习解决方案架构师 2021 年加入 NVIDIA 解决方案架构团队,主要从事模型推理优化加速的工作,目前主要支持国内 CSP 客户在大语言模型推理加速的工作。

Posts by 郝尚荣

加速计算

TensorRT-LLM 低精度推理优化:从速度和精度角度的 FP8 vs INT8 的全面解析

本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次, 5 MIN READ
生成式人工智能/大语言模型

阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践

随着 ChatGPT 的一夜爆火,大模型如今越来越广泛的应用到各种业务领域中,阿里安全的业务领域对大模型技术的应用也已经 2 年有余。 4 MIN READ