胡文

清华大学计算机专业,拥有工学博士学位。目前在蚂蚁集团担任算法专家,带领团队在算法层、软件层、服务层三个维度优化大模型推理部署性能。

Posts by 胡文

加速计算

使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理优化实践

Codefuse(https://github.com/codefuse-ai)是由蚂蚁集团开发的代码语言大模型, 3 MIN READ