数据中心/云端/边缘

使用经 NVIDIA 认证的系统优化企业 IT 工作负载

GPU 加速的工作负载在所有行业都蓬勃发展,从使用人工智能来更好地参与客户和进行业务预测的数据分析,到实现更快产品创新的高级可视化。

GPU 加速基础设施的最大挑战之一是选择正确的硬件系统。虽然业务线关心性能和使用大量开发人员工具和框架的能力,但企业 IT 团队还关心管理和安全等因素。

NVIDIA-Certified Systems 项目的创建是为了满足这两个群体的需求。配备 NVIDIA GPU 和网络适配器的领先系统制造商的系统经过了严格的测试过程。如果服务器或工作站满足一系列 GPU 加速应用程序的性能和可扩展性的特定标准,以及安全和管理功能的适当功能,则该服务器或工作站将被标记为 NVIDIA 认证。

服务器配置挑战

每个候选系统的认证测试由系统制造商在其实验室进行, NVIDIA 与每个合作伙伴合作,帮助他们确定最佳通过配置。 NVIDIA 研究了许多服务器型号的数百个结果,这一经验使我们能够识别并解决可能对性能产生负面影响的配置问题。

高工作温度

GPU 具有最高支持温度,但在较低温度下运行可以提高性能。一台典型的服务器有多个风扇来提供空气冷却,带有可编程的温度 – 速度 – 风扇曲线。默认风扇曲线基于通用基本系统,不考虑 GPU 和可产生大量热量的类似设备的存在。认证过程可以揭示由于温度引起的性能问题,并可以确定哪些自定义风扇曲线提供最佳结果。

非最佳 BIOS 和固件设置

BIOS 设置和固件版本会影响性能和功能。认证过程验证最佳 BIOS 设置以获得最佳性能,并确定其他配置的最佳值,如 NIC PCI 设置和引导 grub 设置。

不正确的 PCI 插槽配置

将数据快速传输到 GPU 对于获得最佳性能至关重要。由于 GPU 和 NIC 是通过 PCI 总线安装在企业系统上的,因此放置不当可能会导致性能不佳。认证过程会暴露这些问题,并确定最佳 PCI 插槽配置。

认证目标

该认证旨在通过运行一套 25 个以上的软件测试来测试候选系统的性能和功能,这些测试代表了广泛的现实世界应用程序和操作。

这些测试的目标是优化给定系统配置的性能、可管理性、安全性和可伸缩性。

Diagram of NVIDIA-Certified program test suite covering workloads, management, and infrastructure.
图 1 。 NVIDIA 认证系统测试套件

表演

测试套件包括一组不同的应用程序,这些应用程序以多种方式对系统施加压力。它们涉及以下问题:

  • 深度学习训练与人工智能推理
  • NVIDIA Riva 和 NVIDIA Clara 等端到端人工智能框架
  • Apache Spark 和 RAPIDS 等数据科学应用程序
  • 智能视频分析
  • HPC 和 CUDA 函数
  • 使用 Blender 、 Octane 和类似工具进行渲染

可管理性

使用 Kubernetes 进行编排,在 NVIDIA 云本机核心软件堆栈上运行认证测试。这验证了经认证的服务器可以完全由领先的云本机框架管理,如 Red Hat OpenShift 、 VMware Tanzu 和 NVIDIA Fleet Command 。

还验证了使用 Redfish 的远程管理功能。

安全

该认证分析了硬件、设备、系统固件、低级保护机制的平台级安全性,以及各种平台组件的配置。

还验证了 Trusted Platform Module ( TPM )功能,这使系统能够支持安全引导、签名容器和加密磁盘卷等功能。

可扩展性

NVIDIA 认证的数据中心服务器经过测试,可以使用 GPUDirect RDMA 验证多 GPU 和多节点性能,以及使用多实例 GPU ( MIG )验证运行多个工作负载的性能。还有对关键网络服务的测试。这些功能使 IT 系统能够扩展加速的基础架构,以满足工作负载需求。

资格与认证

了解资质和 NVIDIA 认证之间的区别很重要。一台合格的服务器经过了热、机械、电源和信号完整性测试,以确保特定的 NVIDIA GPU 在该服务器设计中充分发挥功能。

合格配置的服务器支持生产使用,合格是认证的先决条件。然而,如果你想要一个既受支持又经过优化设计和配置的系统,你应该总是选择一个经过认证的系统。

Graphic icons of the NVIDIA-Certified test workloads compared to the NVIDIA Qualified tests for server design.
图 2 。 NVIDIA 认证与 NVIDIA 认证系统

NVIDIA 认证系统类别

NVIDIA 认证的系统有一系列针对特定用例进行优化的类别。您可以从最符合您需求的类别中选择一个系统。

各类系统的设计由系统模型和最适合目标工作负载的 GPU 决定。例如,企业级服务器可以为数据中心配置 NVIDIA A100 或 NVIDIA A40 ,而紧凑型服务器可以为边缘配置 NVIDIA A2 。

认证过程也针对每个类别进行定制。例如,工作站没有针对多节点应用程序进行测试,而 industrial edge 系统在系统设计环境(如高温)下运行时必须通过所有测试。

CategoryWorkloadsExample Use Cases
Data Center Compute ServerAI Training and Inferencing, Data Analytics, HPCRecommender Systems, Natural Language Processing
Data Center General Purpose ServerVisualization, Rendering, Deep LearningOff-line Batch Rendering, Accelerating Desktop Rendering
High Density Virtualization ServerVirtual Desktop, Virtual WorkstationOffice Productivity, Remote Work
Enterprise EdgeEdge Inferencing in controlled environmentsImage and Video Analytics, Multi-access Edge Computing (MEC)
Industrial EdgeEdge Inferencing in industrial or rugged environmentsRobotics, Medical instruments, Field-deployed Telco Equipment
WorkstationDesign, Content Creation, Data ScienceProduct & Building Design, M&E Content Creation
Mobile WorkstationDesign, Content Creation, Data Science, Software DevelopmentData Feature Exploration, Software Design
表 1 。认证系统类别

按下企业 IT 的简易按钮

有了 NVIDIA 认证的系统,您可以放心地选择和配置性能优化的服务器和工作站,以在较小的配置和规模下加速计算工作负载。 NVIDIA 认证系统为您提供了最简单的方法,让您能够成功完成所有加速计算项目。

available 有多种系统类型,包括流行的数据中心和边缘服务器型号,以及来自 NVIDIA 合作伙伴庞大生态系统的台式和移动工作站。有关更多信息,请参阅以下参考资料:


Tags