生成式人工智能/大语言模型

NVIDIA 与 Hugging Face 合作,简化生成式 AI 模型部署

随着生成式 AI 的快速增长,社区通过两种重要方式加强了这种扩展:快速发布先进的基础模型,以及简化其与应用程序开发和生产的集成。

NVIDIA 通过优化基础模型来增强性能、允许企业更快地生成令牌、降低模型运行成本,以及借助 NVIDIA NIM 改善最终用户体验,来帮助实现这一目标。

NVIDIA NIM

NVIDIA NIM 推理微服务旨在简化和加速生成式人工智能模型在 NVIDIA 加速基础设施(包括云、数据中心和工作站)中的部署。

NIM 利用 TensorRT-LLM 推理优化引擎、行业标准 API 和预构建容器,可提供低延迟、高吞吐量的 AI 推理,并可根据需求进行扩展。它支持各种 LLM,包括 Llama 3 8B, Mixtral 8x22B, Phi-3 以及 Gemma 以及针对特定领域应用的优化 speech, image, video, healthcare 等等。

NIM 可提供出色的吞吐量,使企业生成令牌的速度提升高达 5 倍。对于生成式 AI 应用,令牌处理是关键的性能指标,而令牌吞吐量的增加直接转化为企业收入的增加。

通过简化集成和部署流程,NIM 使企业能够快速从 AI 模型开发转向生产,从而提高效率、降低运营成本,并使企业专注于创新和发展。

现在,我们将在 Hugging Face 方面更进一步,帮助开发者在几分钟内运行模型。

只需单击几下,即可在 Hugging Face 上部署 NIM

Hugging Face 是适用于 AI 模型的领先平台,由于它增强了 AI 模型的可访问性,因此已成为 AI 开发者的首选平台。

借助 NVIDIA NIM 利用无缝部署的强大功能,首先是通过您首选的云服务提供商访问 Llama 3 8BLlama 3 70B,所有这些都可以直接从 Hugging Face 访问。

NIM 可提供出色的吞吐量,并通过多个并发请求实现接近 100%的利用率,使企业生成文本的速度提高 3 倍。对于生成式 AI 应用程序,令牌处理是关键的性能指标,而令牌吞吐量的增加直接转化为企业收入的增加。

The Llama 3 NIM is performance optimized to deliver higher throughput, which translates to higher revenue and lower TCO. The Llama 3 8B NIM processes ~9300 tokens per second compared to the non-NIM version which processes ~2700 tokens per second on HF Endpoints.
图 1.基于拥抱面部的 Llama 3 8B NIM 实现 3 倍吞吐量

Hugging Face 上的专用 NIM 端点可在您喜欢的云上旋转实例,自动获取并部署 NVIDIA 优化模型,并使您只需单击几下即可开始推理,这一切只需几分钟即可完成。

让我们深入了解一下。

第 1 步:前往 Llama 3 8B7 亿条指令 在 Hugging Face 上的模型页面,然后单击这些“Deploy”(部署)下拉菜单,然后从菜单中选择“NVIDIA NIM 端点”。

Hugging Face provides various serverless and dedicated endpoint options to deploy the models. NVIDIA NIM endpoints can be deployed on top cloud platforms.
图 2.Hugging Face 上的 Llama 3 模型页面屏幕截图

第 2 步:系统将显示一个带有“Create a new Dedicated Endpoint”(使用 NVIDIA NIM 创建新的专用端点) 的新页面。选择您首选的 CSP 实例类型以在其上运行模型。AWS 上的 A10G/A100 和 GCP 实例上的 A100/H100 利用 NVIDIA 优化的模型引擎实现最佳性能。

Create a new dedicated NIM endpoint by selecting your cloud service provider, region, and GPU configuration.
图 3.在端点页面上选择您的云服务提供商 (CSP) 和基础架构配置

第 3 步:在`Advanced configuration`(高级配置) 部分中,从 Container Type (容器类型) 下拉列表中选择` NVIDIA NIM`,然后单击`Create Endpoint`(创建端点)。

Select NVIDIA NIM container. The rest of the configurations are pre-selected to eliminate guesswork for users in picking the best options and allowing them to focus on building their solutions.
图 4.选择页面“Advanced configuration”(高级配置) 部分中的 NVIDIA NIM 容器。

第 4 步:几分钟内即可启动并运行推理端点。

The Llama 3 NIM endpoint is up and running. Now you can make API calls to the model and run your generative AI application.
图 5.NIM 端点已部署并已上线

开始使用 

部署 Llama 3 8B70B 在 Hugging Face 中的 NIM,可以缩短生成式人工智能解决方案的上市时间,通过高令牌吞吐量提高收入,并降低推理成本。

要体验目前支持 40 多个多模态 NIM 的应用程序并对其进行原型设计,请访问 ai.nvidia.com, NVIDIA 人工智能官方网站。

借助免费的 NVIDIA Cloud Credits,您只需几行代码即可集成 NVIDIA 托管的 API 端点,从而构建和测试原型应用。

 

Tags