最新一代热门 Llama AI 模型现已支持 Llama 4 Scout 和 Llama 4 Maverick。它们由 NVIDIA 开源软件加速,在 NVIDIA Blackwell B200 GPU 上每秒可实现超过 40K 输出 token,并可作为 NVIDIA NIM 微服务 进行试用。
Llama 4 模型现在采用混合专家 (MoE) 架构,原生支持多模态和多语言。Llama 4 模型提供各种多模态功能,推动规模、速度和效率的提升,使您能够打造更加个性化的体验。
Llama 4 Scout 是一个 109B 参数模型,每个令牌活跃 17B,由 16 位专家组成,拥有 10M 上下文长度的窗口,并针对单个 NVIDIA H100 GPU 优化和量化为 int4。这支持各种用例,包括多文档摘要、解析大量用户活动以执行个性化任务,以及对大量代码库进行推理。
Llama 4 Maverick 是一个 400B 参数模型,每个 token 活跃 17B,由 128 名专家组成,接受 1M 上下文长度。该模型可提供高性能的图像和文本理解。
已针对 NVIDIA TensorRT-LLM 进行优化
NVIDIA 针对 NVIDIA TensorRT-LLM 优化了 Llama 4 Scout 和 Llama 4 Maverick 模型。TensorRT-LLM 是一个开源库,用于加速 NVIDIA GPU 上最新基础模型的 LLM 推理性能。
您可以使用 TensorRT Model Optimizer (一个可以使用最新的算法模型优化和量化技术重构 bfloat16 模型的库),在不影响模型准确性的情况下,利用 Blackwell FP4 Tensorcore 性能加速推理。
在 Blackwell B200 GPU 上,TensorRT-LLM 通过 NVIDIA 优化的 Llama 4 Scout 的 FP8 版本提供每秒超过 40K 个 token 的吞吐量,在 Llama 4 Maverick 上提供每秒超过 30K 个 token。

Blackwell 凭借架构创新实现了巨大的性能飞跃,包括第二代 Transformer Engine、第五代 NVLink 以及 FP8、FP6 和 FP4 精度,可实现更高的训练和推理性能。对于 Llama 4,这些进步提供了 3.4 倍的吞吐量提升和 2.6 倍的单令牌成本提升,与 NVIDIA H200 相比。
最新的 Llama 4 优化可在开源 NVIDIA/TensorRT-LLM GitHub 资源库中获取。
Meta 和 NVIDIA 的持续合作
NVIDIA 和 Meta 在合作推进开放模型方面有着长期的记录。NVIDIA 是一个积极的开源贡献者 ,可帮助您高效工作,解决最棘手的挑战,并提高性能和降低成本。
开源模型还提高了 AI 透明度,让用户能够广泛分享 AI 安全性和弹性方面的工作。这些开放模型与 NVIDIA 加速计算 相结合,使开发者、研究人员和企业能够在各种应用中负责任地进行创新。
后训练 Llama 模型以提高准确性
NVIDIA NeMo 是一个端到端框架,专为使用您的企业数据定制大语言模型 (LLMs) 中的 Llama 模型而构建。
首先,使用 NeMo Curator 管理高质量的预训练或微调数据集,这有助于大规模提取、筛选和删除重复的结构化和非结构化数据。然后,使用 NeMo 高效地微调 Llama 模型,并支持 LoRA、PEFT 和完整参数调整等技术。
对模型进行微调后,您可以使用 NeMo Evaluator 评估模型性能。NeMo Evaluator 支持行业基准测试,也支持根据您的特定用例定制的自定义测试集。
借助 NeMo,企业可以获得强大而灵活的工作流,以调整 Llama 模型,以适应生产就绪型 AI 应用。
借助 NVIDIA NIM 简化部署
为了确保企业可以利用这些模型,Llama 4 模型将被打包为 NVIDIA NIM 微服务,以便在任何 GPU 加速的基础设施上轻松部署,同时具有灵活性、数据隐私和企业级安全性。
NIM 还通过支持行业标准 API 简化了部署,因此您可以快速启动和运行。无论您使用的是 LLMs、vision models、或 multimodal AI,NIM 都能消除基础架构的复杂性,并实现跨云、数据中心和 edge environments 的无缝扩展。
立即开始使用
试用 Llama 4 NIM 微服务 来试验您自己的数据,并通过将 NVIDIA 托管的 API 端点集成到您的应用中来构建概念验证。