随着生成式 AI 的快速增长,社区通过两种重要方式加强了这种扩展:快速发布先进的基础模型,以及简化其与应用程序开发和生产的集成。
NVIDIA 通过优化基础模型来增强性能、允许企业更快地生成令牌、降低模型运行成本,以及借助 NVIDIA NIM 改善最终用户体验,来帮助实现这一目标。
NVIDIA NIM
NVIDIA NIM 推理微服务旨在简化和加速生成式人工智能模型在 NVIDIA 加速基础设施(包括云、数据中心和工作站)中的部署。
NIM 利用 TensorRT-LLM 推理优化引擎、行业标准 API 和预构建容器,可提供低延迟、高吞吐量的 AI 推理,并可根据需求进行扩展。它支持各种 LLM,包括 Llama 3 8B, Mixtral 8x22B, Phi-3 以及 Gemma 以及针对特定领域应用的优化 speech, image, video, healthcare 等等。
NIM 可提供出色的吞吐量,使企业生成令牌的速度提升高达 5 倍。对于生成式 AI 应用,令牌处理是关键的性能指标,而令牌吞吐量的增加直接转化为企业收入的增加。
通过简化集成和部署流程,NIM 使企业能够快速从 AI 模型开发转向生产,从而提高效率、降低运营成本,并使企业专注于创新和发展。
现在,我们将在 Hugging Face 方面更进一步,帮助开发者在几分钟内运行模型。
只需单击几下,即可在 Hugging Face 上部署 NIM
Hugging Face 是适用于 AI 模型的领先平台,由于它增强了 AI 模型的可访问性,因此已成为 AI 开发者的首选平台。
借助 NVIDIA NIM 利用无缝部署的强大功能,首先是通过您首选的云服务提供商访问 Llama 3 8B 和Llama 3 70B,所有这些都可以直接从 Hugging Face 访问。
NIM 可提供出色的吞吐量,并通过多个并发请求实现接近 100%的利用率,使企业生成文本的速度提高 3 倍。对于生成式 AI 应用程序,令牌处理是关键的性能指标,而令牌吞吐量的增加直接转化为企业收入的增加。
Hugging Face 上的专用 NIM 端点可在您喜欢的云上旋转实例,自动获取并部署 NVIDIA 优化模型,并使您只需单击几下即可开始推理,这一切只需几分钟即可完成。
让我们深入了解一下。
第 1 步:前往 Llama 3 8B 或7 亿条指令 在 Hugging Face 上的模型页面,然后单击这些“Deploy”(部署)下拉菜单,然后从菜单中选择“NVIDIA NIM 端点”。
第 2 步:系统将显示一个带有“Create a new Dedicated Endpoint”(使用 NVIDIA NIM 创建新的专用端点) 的新页面。选择您首选的 CSP 实例类型以在其上运行模型。AWS 上的 A10G/A100 和 GCP 实例上的 A100/H100 利用 NVIDIA 优化的模型引擎实现最佳性能。
第 3 步:在`Advanced configuration`(高级配置) 部分中,从 Container Type (容器类型) 下拉列表中选择` NVIDIA NIM`,然后单击`Create Endpoint`(创建端点)。
第 4 步:几分钟内即可启动并运行推理端点。
开始使用
部署 Llama 3 8B 和70B 在 Hugging Face 中的 NIM,可以缩短生成式人工智能解决方案的上市时间,通过高令牌吞吐量提高收入,并降低推理成本。
要体验目前支持 40 多个多模态 NIM 的应用程序并对其进行原型设计,请访问 ai.nvidia.com, NVIDIA 人工智能官方网站。
借助免费的 NVIDIA Cloud Credits,您只需几行代码即可集成 NVIDIA 托管的 API 端点,从而构建和测试原型应用。