张国铭

张国铭是 NVIDIA 性能架构师,目前主要从事大模型推理架构和优化。

Posts by 张国铭

生成式人工智能/大语言模型

在 NVIDIA Blackwell GPU 上优化 DeepSeek R1 吞吐量:开发者深度解析

开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE), 1 MIN READ
生成式人工智能/大语言模型

TensorRT-LLM:LLM API 精简指令畅享卓越性能!

NVIDIA TensorRT-LLM 是一个专为 优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术 , 2 MIN READ