推理是机器学习生命周期的重要组成部分 并在训练模型后发生。这是一个企业从他们的人工智能投资中实现价值的时候。人工智能的常见应用包括图像分类(“这是一张肿瘤图像”)、推荐(“这是一部你喜欢的电影”)、将语音音频转录成文本,以及决策(“将汽车转向左侧”)。
深度学习培训系统 需要大量的计算能力,但人工智能模型经过培训后,在生产中运行它所需的资源就更少了。在确定推理工作负载的系统需求时,最重要的因素是正在运行的模型和部署位置。这篇文章讨论了这些领域,特别关注边缘的人工智能推理。
人工智能模型推理需求
要帮助确定最佳推理部署配置,请使用以下工具: NVIDIA Triton Model Analyzer 根据正在运行的特定 AI 模型提出建议。像 NVIDIA TensorRT 这样的推理编译器可以通过优化模型,使其以最高吞吐量和最低延迟运行,同时保持准确性,从而减少推理的资源需求。
即使进行了这些优化, GPU 对于实现业务服务级别目标、 SLA 和推理工作负载要求仍然至关重要。 MLPerf 2.0 推理基准的结果 证明 NVIDIA GPU 比纯 CPU 系统快 100 倍以上。 GPU 还可以为需要实时响应的工作负载提供所需的低延迟。
推理工作负载的部署位置
在边缘的数据中心也可以找到推理工作负载。数据中心中运行的推理工作负载示例包括推荐系统和自然语言处理。
这些工作负载的运行方式多种多样。例如,许多不同的模型可以从同一台服务器同时提供服务,并且可以有成百上千甚至上万个并发推理请求。此外,数据中心服务器通常运行人工智能推理之外的其他工作负载。
在数据中心推理系统设计方面,没有“一刀切”的解决方案。
在边缘位置运行的推理应用程序代表着一类重要且不断增长的工作负载。 Edge computing 的驱动力是对低延迟、实时结果的要求,以及出于成本和安全原因减少数据传输的愿望。边缘系统运行在物理上靠近数据收集或处理位置的位置,如零售店、工厂楼层和手机基站。
与数据中心推理相比,边缘人工智能推理的系统需求更容易表达,因为这些系统通常设计为专注于狭窄范围的推理工作负载。
边缘推断通常涉及摄像头或其他传感器收集必须采取行动的数据。这方面的一个例子是,化工厂中配备传感器的摄像机被用来 检测管道中的腐蚀 并在任何损坏发生之前提醒员工。
边缘推理系统要求
人工智能培训服务器的设计必须能够处理大量历史数据,以了解模型参数的正确值。相比之下,用于边缘推断的服务器需要处理在边缘位置实时收集的流数据,该位置的容量较小。
因此,系统内存不需要那么大, CPU 内核的数量可以更低。网络适配器不需要那么高的带宽,服务器上的本地存储可以更小,因为它不缓存任何训练数据集。
但是,网络和存储都应该配置为使延迟最低,因为尽快响应的能力至关重要。
Resource | AI training in the data center | AI inferencing at the edge |
CPU | Fastest CPUs with high core count | Lower-power CPUs |
GPU | Fastest GPUs with most memory, more GPUs per system | Lower-power GPU, or larger GPU with MIG, one or two GPUs per system |
Memory | Large memory size | Average memory size |
Storage | High bandwidth NVMe flash drive, one per CPU | Average bandwidth, lowest-latency NVMe flash drive, one per system |
Network | Highest bandwidth network adapter, Ethernet or InfiniBand, one per GPU pair | Average bandwidth network adapter, Ethernet, one per system |
PCIe System | Devices balanced across PCIe topology; PCIe switch for multi-GPU, multi-NIC deployments | Devices balanced across PCIe topology; PCIe switch not required |
根据定义,边缘系统部署在传统数据中心之外,通常位于远程位置。环境往往在空间和权力方面受到限制。这些限制可以通过使用较小的系统和低功耗的 GPU 来满足,例如 NVIDIA A2 。
如果推理工作负载要求更高,并且电源预算允许,则可以使用更大的 GPU ,如 NVIDIA A30 或 NVIDIA A100 。多实例 GPU ( MIG )功能使这些 GPU 能够同时为多个推理流提供服务,从而使整个系统能够提供高效的性能。
边缘推断的其他因素
除了系统要求之外,还有其他需要考虑的因素,这些因素是边缘独有的。
主机安全
Security 是边缘系统的一个关键方面。数据中心本质上可以提供一定程度的物理控制和集中管理,以防止或减轻窃取信息或控制服务器的企图。
在设计边缘系统时,必须假设其部署位置没有物理安全性,并且无法从数据中心 IT 管理系统中的许多访问控制机制中获益。
可信平台模块 ( TPM )是一种可以极大地帮助主机安全的技术。如果配置得当, TPM 可以确保系统只能使用经过数字签名且未经更改的固件和软件启动。附加的安全检查(如签名容器)可确保应用程序未被篡改,并且可以使用安全存储在 TPM 中的密钥对磁盘卷进行加密。
加密
另一个重要考虑事项是加密进出边缘系统的所有网络流量。如 NVIDIA ConnectX 产品 中所述,带有加密加速硬件的签名网络适配器可确保这种保护不会以降低数据传输速率为代价。
加固系统
对于某些使用情况,例如在自动化控制的工厂地板上或在电信天线塔旁边的外壳中,边缘系统必须在潜在的恶劣条件下运行良好,例如高温、大冲击和振动以及灰尘。
GPU 越来越多地提供了用于这些目的的加固服务器,因此,即使是这些极端的用例,也可以从更高的性能中受益。
选择端到端的推理平台
NVIDIA 已将 NVIDIA-Certified Systems 计划扩展到包括在传统数据中心之外运行的边缘部署类别。这些系统的设计标准包括以下所有方面:
- NVIDIA GPU
- 提供最佳性能的 CPU 、内存和网络配置
- 安全和远程管理功能
合格系统目录 有一份由 NVIDIA partners 提供的经 NVIDIA 认证的系统列表。该列表可以按系统类别进行筛选,包括以下最适合推理工作负载的类别:
- 数据中心服务器 在各种数据科学工作负载上都经过了性能和扩展功能验证,非常适合数据中心推断。
- 企业边缘系统 设计用于在受控环境中部署,例如零售店的后台办公室。这类系统在类似数据中心的环境中进行测试。
- 工业边缘系统 专为工业或崎岖环境而设计,如工厂地板或手机基站。获得该认证的系统必须在系统设计环境中运行时通过所有测试,例如典型数据中心范围之外的高温环境。
除了为 edge 认证系统外, NVIDIA 还开发了企业软件来运行和管理推理工作负载。
NVIDIA Triton 推理服务器 通过使团队能够在任何基于 GPU 或 CPU 的基础设施上从任何框架部署、运行和扩展经过培训的人工智能模型,简化人工智能推理。它可以帮助您跨云、本地、边缘和嵌入式设备提供高性能推理。
NVIDIA 人工智能企业 是一套端到端、云计算原生的人工智能和数据分析软件,经过优化,因此每个组织都可以擅长人工智能,经认证可在数据中心和边缘位置部署。它包括全球企业支持,使人工智能项目保持正常运行。
NVIDIA Fleet Command 是一种云服务,集中连接边缘位置的系统,从一个仪表板安全地部署、管理和扩展人工智能应用程序。它是一个具有多层安全协议的交钥匙,可以在数小时内完全运行。
通过选择一个由认证系统和基础设施软件组成的端到端平台,您可以启动人工智能生产部署,部署和运行推理应用程序,比尝试从单个组件组装解决方案要快得多。
了解有关 NVIDIA AI 推理平台的更多信息
当涉及到深度学习推理时,会涉及更多内容。 NVIDIA 人工智能推理平台技术概述 对此主题进行了深入讨论,包括端到端深度学习工作流的视图、将支持人工智能的应用程序从原型部署到生产部署的细节,以及用于构建和运行人工智能推理应用程序的软件框架。
报名参加 边缘人工智能新闻 及时了解最新趋势、客户用例和技术演练。