生成式人工智能/大语言模型

借助 NVIDIA Launchables 实现出色 NVIDIA AI 的一键式部署

AI 开发已成为现代软件工程的核心部分,NVIDIA 致力于寻找方法,为所有希望开始使用 AI 的开发者提供优化的加速计算。

为解决这一问题,我们一直在努力通过 NVIDIA Launchables 使加速计算堆栈更易于访问:预配置的 GPU 计算环境,使您能够部署参考工作流,并在提供所需计算的情况下立即开始构建。

NVIDIA Launchables 是什么?

NVIDIA Launchables 是具有预定义配置的一键式可部署 GPU 开发环境,可帮助您启动并运行工作流。它们可用作模板,包含实现目标所需的所有必要组件:

  • NVIDIA GPU
  • Python
  • CUDA
  • Docker 容器
  • 开发框架,包括 NVIDIA NIM、NVIDIA NeMo 和 NVIDIA Omniverse
  • SDK
  • 依赖项
  • 环境配置

它们还可以包含 GitHub 库或在 GPU 实例中自动设置和挂载的 Jupyter Notebooks。

对于在多个环境中工作的团队或个人开发者而言,Launchables 可确保设置一致且可再现,而无需手动配置和额外开销:

  • 按需访问 NVIDIA GPU: 启动预设变量指定的环境,以更快地实现价值,从而开始评估参考工作流,即使没有 GPU 也不例外。
  • 社区:配置环境,以便其他人轻松部署。可用于分享演示、演示训练和推理工作流,以及使用参考代码示例进行教学。创作者会收到有关如何查看或部署 Lau n chable 的指标。

可启动示例 

以下是 Launchable 派上用场的几种情况:

  • 设置 Megatron-LM 进行 GPU 优化训练
  • 运行 NVIDIA AI 蓝图进行多模态 PDF 数据提取
  • 使用 NVIDIA TensorRT-LLM 部署 Llama3-8B 进行推理

设置 Megatron-LM 进行 GPU 优化训练

在修改张量或管道并行等不同的并行技术之前,您必须拥有 PyTorch、CUDA 和强大的 GPU 设置,才能拥有合理的训练管道。

借助 Megatron-LM Launchable,您可以从云合作伙伴处访问包含 PyTorch、CUDA 和 Megatron-LM 设置的 8 个 H100 GPU 节点环境。现在,您可以立即调整不同的参数 (例如 --tensor-model-parallel-size--pipeline-model-parallel-size),以确定哪种并行技术最适合您的特定模型大小和预训练要求。

运行 NVIDIA AI Blueprint 进行多模态 PDF 数据提取

非结构化 PDF 源通常包含运行 RAG 和其他下游生成式 AI 用例必须提取的文本、表格、图表和图像。

PDF-ingest-blueprint Launchable 随附一个 Jupyter notebook,可为企业合作伙伴设置 PDF 数据提取工作流。借助通过 Launchable 部署的 NVIDIA-Ingest 微服务和各种 NIM 微服务,您可以设置生产级工作流,以在大量 PDF 数据的语料库上并行执行文档分割和测试检索。

使用 NVIDIA TensorRT-LLM 部署 Llama3-8B 进行推理

使用 TRT-LLM Launchable 运行 Llama3 推理随附 Jupyter notebook 指南 ,并用作文档。它演示了如何使用 TensorRT-LLM 部署 Llama3 以进行低延迟推理,方法是将模型转换为 ONNX 中间表示,通过构建配置创建底层运行时 (使用 --gpt_attention_plugin 实现注意力机制优化插件,使用 --gemm_plugin 进行矩阵乘法运算),并部署 TensorRT 引擎对输入令牌运行推理。

可启动权益 

在收集早期用户的反馈后,以下是一些核心技术功能,这些功能让开发者对使用 Launchables 实现可再现的工作流程倍感兴奋:

  • 真正的一键部署
  • 环境再现性
  • 灵活的配置选项
  • 专为协作打造

真正的一键部署 

开发环境设置通常涉及数小时的调试依赖项、配置 GPU 驱动程序和测试框架兼容性。

Launchables 通过提供带有框架、CUDA 版本和硬件配置的预配置环境,将此流程简化为一键式部署流程。这意味着您可以立即开始编写代码,而无需纠结于基础架构。

环境再现性 

环境不一致仍然是 AI 开发团队调试用度的主要来源。

可启动程序通过将整个开发堆栈 (从 CUDA 驱动程序到框架版本) 打包成版本控制、可复制的配置来解决此问题。当您共享可启动 URL 时,您可以保证任何最终用户都能获得相同的开发环境,从而消除“在我的机器上工作”的情况。

灵活的配置选项 

不同的人工智能工作负载需要不同的硬件和软件配置。

Launchables 通过精细环境自定义来支持这一点:

  • 根据您的 vRAM 需求选择特定的 NVIDIA GPU (T4 到 H100)。
  • 使用精确的 Python 和 CUDA 版本要求定义容器配置。
  • 包含特定的 GitHub 存储库或 Jupyter Notebook,以便自动安装到 GPU 实例中。

专为协作打造 

可启动内容可让任何人通过单个 URL 共享完整的开发环境,从而简化协作。对于开源维护人员、教学讲师,甚至是共享内部项目的团队成员,您可以跟踪部署指标,以了解其他人如何使用您的环境。

这对于确保研究环境中的再现性以及在分布式团队中维护一致的训练环境也特别有价值。

创建可启动对象 

创建 Launchable 非常简单:

  1. 选择计算 :从一系列 NVIDIA GPU 中进行选择并自定义计算资源。
  2. 配置您的环境 :选择具有特定 Python 和 CUDA 版本的 VM 或容器配置。
  3. 添加代码 :连接您的 Jupyter notebook 或 GitHub 存储库,以添加到您的端点 GPU 环境中。
  4. 共享和部署 :生成可共享链接,以便其他人立即部署同一环境。
视频 1、如何创建 NVIDIA Launchable

创建 Launchable 后,您将获得以下内容:

  • 可共享的 URL:直接或通过 YouTube 视频或博客文章等素材与他人共享,以便任何人都可以访问 Lau n chable。保存在你的便签中,回到过去的预配置设置。
  • 标记代码:在 GitHub readME、Jupyter notebook 等中嵌入一键式部署标记。

当您与其他人共享 URL 以供使用或保存以用于您自己的可复制设置时,您可以查看有关 Launchable 的查看和部署次数的指标。

立即开始使用一键式部署 

Launchable 可让您打包、版本和即时部署精确的配置,从而显著减少共享和复制 GPU 开发环境的传统摩擦。团队花在基础架构设置上的时间更少,而花在构建 AI 应用上的时间更多。

随着新的 NIM 微服务以及其他 NVIDIA 软件、SDK 和库的发布,我们正在积极扩展 build.nvidia.com 上随时可用的 Launchables。立即探索它们!

标签