赵一嘉

赵一嘉,NVIDIA 解决方案架构师,目前主要聚焦于大模型在 GPU 的推理部署,对接国内互联网客户。

Posts by 赵一嘉

加速计算

TensorRT-LLM 低精度推理优化:从速度和精度角度的 FP8 vs INT8 的全面解析

本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次, 5 MIN READ