数据中心/云端

借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能

微软与 NVIDIA 合作,宣布在其 Azure AI Foundry 平台上实现 Meta Llama 系列模型的变革性性能提升。这些进步由 NVIDIA TensorRT-LLM 优化提供支持,在保持模型输出质量的同时,显著提高了吞吐量、降低了延迟并提高了成本效益。

通过这些改进,Azure AI Foundry 客户可以实现显著的吞吐量提升:在模型目录中的无服务器部署 (Model-as-a-Service) 产品中,Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%,Llama 3.1 8B 模型的吞吐量提高 34%。

更快的令牌生成速度和更低的延迟使聊天机器人、虚拟助理和自动化客户支持等实时应用程序的响应速度更快、效率更高。这转化为更好的价格-性能比率,显著降低了由 LLM 驱动的应用的每个 token 的成本。

Azure AI Foundry 中的模型目录消除了基础设施管理的复杂性,简化了对这些经过优化的 Llama 模型的访问。开发者可以使用无服务器 API 以即用即付定价轻松部署和扩展模型,快速启用大规模用例,而无需前期基础设施成本。

Azure 的企业级安全性可确保客户数据在使用 API 期间保持私密性并受到保护。

通过将 NVIDIA 加速计算与 Azure AI Foundry 的无缝部署功能相结合,开发者和企业可以轻松扩展,降低部署成本并降低总体拥有成本(TCO),同时保持最高的质量和可靠性标准。

NVIDIA TensorRT-LLM 优化推动性能提升

Microsoft 和 NVIDIA 开展了深入的技术合作,以优化 Llama 模型的性能。此次合作的核心是集成 NVIDIA TensorRT-LLM,作为在 Azure AI Foundry 中服务这些模型的后端。

最初的工作重点是 Llama 3.1 70B Instruct、Llama 3.3 70B Instruct 和 Llama 3.1 8B 模型,其中的综合分析和联合工程发现了一些优化机会。这些努力使得 70B 模型的吞吐量增加了 45%,8B 模型的吞吐量增加了 34%,在保留模型保真度的同时使用了 TensorRT-LLM 的新优化。

主要增强功能包括 GEMM Swish-Gated Linear Unit (SwiGLU) 激活插件 (–gemm_swiglu_plugin fp8),该插件将两个通用矩阵乘法 (GEMM) 无偏差融合在一起,并将 SwiGLU 激活转换为单个内核,从而显著提高 NVIDIA Hopper GPU 上 FP8 数据的计算效率。

Reduce Fusion (-reduce_fusion enable) 优化将 AllReduce 之后的 ResidualAdd 和 LayerNorm 操作整合到单个内核中,从而提高延迟和整体性能,对于延迟至关重要的小批量和令牌密集型工作负载而言,尤其如此。

另一项重大改进是 TensorRT-LLM v0.16 中引入的 User Buffer (-user_buffer) 功能,消除了通信内核中从本地到共享缓冲区的不必要内存拷贝。这种优化极大地提高了 inter-GPU 通信性能,特别是在大规模 Llama 模型中的 FP8 精度方面。

由此产生的吞吐量增加直接转化为更快的 token 生成和更低的延迟,提高了整体响应速度,同时降低了客户的每个 token 的成本。此外,通过融合技术减少内核开销并提高内存效率,资源利用率得到显著优化。

尽管有这些显著的性能提升,但响应质量和准确性保持不变,确保优化不会降低模型的输出完整性。

这些成果背后的创新由 NVIDIA TensorRT-LLM 提供支持,可供整个开发者社区使用。开发者可以利用相同的优化来实现更快、更经济高效的 AI 推理,从而实现响应速度更快、可扩展的 AI 驱动产品,这些产品可随时随地部署在 NVIDIA 加速计算平台上。

在 Azure AI Foundry 上获取经 NVIDIA 优化的 Llama 模型的性能

Microsoft 和 NVIDIA 的这种合作将 Microsoft 在云基础设施方面的专业知识与 NVIDIA 在 AI 和性能优化方面的领导地位相结合,充分体现了双方的卓越合作。在 Azure AI Foundry 上试用 Llama 模型 API ,亲身体验这些性能提升。

对于喜欢在管理基础架构时自定义和部署自己的模型的开发者,Azure 提供了利用 NVIDIA 加速计算的灵活选项。您可以使用 NVIDIA TensorRT-LLM 在 Azure VM 或 Azure Kubernetes Service (AKS) 上部署模型,以获得类似的性能提升,同时保持对基础设施和部署管道的控制。

此外,Azure Marketplace 上提供的 NVIDIA AI Enterprise 将 TensorRT-LLM 作为其全面的 AI 工具和框架套件的一部分,为生产部署提供企业级支持和优化。

在 NVIDIA GTC 2025 上,Microsoft 和 NVIDIA 还 宣布 将 NVIDIA NIM 与 Azure AI Foundry 集成。虽然 TensorRT-LLM 使模型构建器能够在 Azure 上自定义、微调和优化其模型的性能,但 NVIDIA NIM 是一套易于使用的微服务,可为 AI 应用开发者提供预先优化的 AI 模型和微服务,并提供企业级支持。

无论您是选择 Azure AI Foundry 的全托管 MaaS 产品,还是在 Azure AI Foundry 中自行部署模型,全栈 NVIDIA 加速计算平台都能帮助您构建更高效、响应更灵敏的 AI 驱动应用。

标签