借助 NVIDIA AI Enterprise 推进生产级 AI 发展

尽管许多企业将利用人工智能的潜力作为优先事项，但开发和部署人工智能模型需要时间和精力。通常，必须克服将模型投入生产的挑战，这对于任务关键型业务运营尤为重要。根据IDC 研究，只有 18% 的受访企业能够在一个月内将 AI 模型投入生产。

本文探讨了降低 AI 部署速度的挑战，并介绍了使用一致、安全且可靠的平台加速将 AI 投入生产之旅的优势。

AI 软件堆栈的复杂性与日俱增

开源软件（OSS）在推动人工智能（AI）的采用方面发挥着至关重要的作用。根据2023 年 10 月的现状报告，与生成式 AI 相关的公共 GitHub 项目在 2023 年达到了 65000 个，同比增长了 249%。尽管开源社区推动了 AI 时代的发展，但在构建 AI 应用程序中使用的各种 OSS 使得维护可靠的企业级 AI 软件堆栈成为一项复杂且资源密集型的工作，类似于维护开源操作系统的难度。

例如，NVIDIA Triton 推理服务器用于标准化和扩展 AI 部署，依赖于众多软件依赖项。在图 1 中，绿色点表示 CUDA 库，白色点表示 OSS 包，它们之间的线表示依赖关系。任何单个更改(例如定期软件更新或安全补丁)都可能引入 API 更改，从而导致应用程序故障或停机。

A graphic representation of NVIDIA Triton Inference Server software dependencies. Green dots represent CUDA libraries, white dots represent OSS packages, and the lines in between represent dependencies. — *图 1. NVIDIA Triton 推理服务器的软件依赖项*

持续安全监控

随着安全漏洞的日益增多，维护 AI 软件堆栈变得更具挑战性。根据 Synopsys 发布的最新开源安全和风险分析报告，在过去五年中，针对大数据、AI、商业智能和机器学习的高风险攻击模式激增了 236%。

不断发现新的漏洞。例如，图 2 显示了 NVIDIA Triton 容器安全扫描结果的比较。在短短 3 周内，我们发现了一个关键漏洞。此外，高漏洞的数量从 4 个增加到 11 个。持续监控和快速响应以修复漏洞对于保持业务连续性至关重要。

Two screenshots showing that the vulnerabilities of NVIDIA Triton increased in 3 weeks. — *图 2. NVIDIA Triton 的安全扫描结果比较*

适用于生产级 AI 的 NVIDIA AI Enterprise

为了帮助应对这些挑战，NVIDIA推出了NVIDIA AI Enterprise，这是一个端到端的云原生软件平台，旨在加速数据科学流程，并简化生产级AI的开发和部署。NVIDIA AI Enterprise软件平台基于开源构建，并由NVIDIA精心策划、优化和支持，使开发者能够专注于构建和部署新的AI服务。

NVIDIA AI Enterprise 包括三个受支持的分支：生产分支、功能分支和长期支持分支。客户可以访问所有三个分支，并可以使用这三个分支的任意组合。

生产分支确保 API 的稳定性和定期安全更新，非常适合在需要稳定性时在生产环境中部署 AI。每 6 个月发布一次，生命周期为 9 个月。

特性分支包括树顶软件更新；非常适合需要更快速发展的最新开发环境的 AI 开发者。每月发布一次。

长期支持分支是高度监管行业的理想选择。每 2.5 年发布一次，生命周期长达 3 年。

API 稳定性和安全性

在每个 NVIDIA AI Enterprise 生产分支的 9 个月生命周期中， NVIDIA 会持续监控关键和高常见漏洞和暴露 (CVE)，并每月发布安全补丁(图 3)。这样， NVIDIA AI Enterprise 中包含的 AI 框架、库、模型和工具可以更新以进行安全修复，同时消除破坏 API 的风险。

Graphic of NVIDIA AI Enterprise production branch lifecycle timeline. — *图 3. NVIDIA AI Enterprise 生产分支生命周期时间表*

图 4 将通过 NVIDIA AI Enterprise 生产分支版本提供的 Triton 版本与 Triton 的开源版本进行了比较。 NVIDIA AI Enterprise 生产分支提供的商业版本无严重漏洞，而开源版本有 9 个严重漏洞。

Two screenshots of vulnerability scanning results of two PyTorch images. One from NGC, and one from NVIDIA AI Enterprise. — *图 4.Triton 安全扫描结果对比*

通过透明实现安全性

除了提供每月 CVE 补丁和错误修复的产品分支外， NVIDIA AI Enterprise 客户还可以从 NVIDIA 接收安全建议和漏洞利用信息，包括漏洞利用交换 (VEX) 和软件材料清单 (SBOM)、漏洞上下文和补救指导。

VEX 文档是网络安全领域的新兴资源。与传统的 CVE 条目不同，VEX 文档通过编程方式提供了与漏洞相关的特定上下文信息。它能够指示漏洞是否与 AI 堆栈中的特定组件相关，或者是否可以利用。此外，VEX 文档还用于沟通漏洞扫描工具标记的误报。NVIDIA 的 VEX 文档遵循 CyclonDX 标准，这是一种机器可读的信息共享方式。

软件经过长期优化，可实现更好的性能和更低的 TCO

随着 NVIDIA 不断发展 AI 软件并优化性能，最新版本的 NVIDIA AI 软件与上一版本相比，在 NVIDIA H100 GPU 上实现了高达 54%的性能提升。图 5 展示了这一性能提升，这是通过参与 MLPerf Inference v3.0 基准测试获得的。这种性能的提升不仅提高了效率，还减少了数据中心或云环境中的能耗、空间占用和投资成本。

Chart of NVIDIA MLPerf Inference v3.0 compared to v2.1 submission results on NVIDIA H100. — *图 5. NVIDIA 推理软件可在不升级硬件的情况下提供高达 54%的性能提升*

企业级支持

每个 NVIDIA AI Enterprise 订阅都包含企业级支持，使组织能够从透明的开源信息中受益，并获得 NVIDIA 提供的全面软件堆栈支持保证。业务标准支持包括：

每周 7 天、每天 24 小时通过客户门户和电话接受无限量技术支持案例
在当地工作时间提供升级支持
NVIDIA 专家和工程师及时解决问题
长达 3 年的长期支持

无论您是需要与 AI 专家联系、访问知识库资源，还是对性能问题进行故障排除， NVIDIA 都可以随时为您提供帮助，并提供保持 AI 稳定和安全所需的支持。

开始使用 NVIDIA AI Enterprise

NVIDIA AI Enterprise 减少了维护和保护生产级 AI 的复杂软件平台的成本和负担，使组织能够专注于构建 AI 并利用其颠覆性见解。

要体验企业平台，请免费申请 90 天评估许可证，这将允许您访问所有软件分支和企业支持。

已经是 NVIDIA AI Enterprise 用户？访问生产分支的最新版本。

借助 NVIDIA AI Enterprise 推进生产级 AI 发展

AI 软件堆栈的复杂性与日俱增

持续安全监控