刘川

NVIDIA 解决方案架构经理,整体负责中国区云计算行业 GPU 解决方案。于南京大学获计算机科学与技术专业硕士学位。带领团队主要从事大语言模型、生成式 AI 以及搜索推荐等重点 AI 任务的 GPU 适配、优化和加速方案的设计、部署和落地,帮助多加头部互联网公司在诸多业务中大幅降本增效。

Posts by 刘川

加速计算

使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理优化实践

Codefuse(https://github.com/codefuse-ai)是由蚂蚁集团开发的代码语言大模型, 3 MIN READ