Posts by 赵一嘉
加速计算
2024年 11月 20日
TensorRT-LLM 低精度推理优化:从速度和精度角度的 FP8 vs INT8 的全面解析
本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,
5 MIN READ