赵一嘉

赵一嘉，NVIDIA 解决方案架构师，目前主要聚焦于大模型在 GPU 的推理部署，对接国内互联网客户。

Posts by 赵一嘉

加速计算 2024年 11月 20日

本文将分享 TensorRT-LLM 中低精度量化内容，并从精度和速度角度对比 FP8 与 INT8。首先介绍性能，包括速度和精度。其次， 5 MIN READ