数据中心/云端

IT 经理部署 Edge AI 解决方案指南

时机是一切,尤其是当它影响到客户体验、底线和生产效率时。 Edge AI 可以通过在间歇性、低带宽和低成本环境中提供实时智能和增强隐私来提供帮助。

根据 Gartner ®的数据,到 2025 年, 75% 的数据将在传统数据中心或云之外的边缘创建和处理。1.难怪成千上万的公司正在转向边缘人工智能来推动其业务转型。

随着组织经历这一转变,许多 IT 和业务领导者仍处于规划和执行边缘计算战略的早期阶段。因为边缘人工智能是一个新概念,这个过程对很多人来说都很困难。

NVIDIA 是一家领先的人工智能基础设施公司,拥有丰富的经验,帮助组织、客户和合作伙伴成功部署边缘人工智能解决方案,对这些新概念并不陌生。

为了帮助他人, An IT Manager’s Guide: How to Successfully Deploy an Edge AI Solution 中介绍了这些经验的学习和建议。白皮书深入探讨了构建和执行成功的边缘 AI 部署。

这篇文章介绍了配置边缘系统时一些关键注意事项的建议。

边缘系统配置:设计建议

确定系统大小时需要考虑许多参数。最佳 PCIe 服务器配置将取决于该服务器的目标工作负载。

边缘人工智能模型将各种工作负载纳入其应用程序,如视觉人工智能、自然语言处理、基于工业传感器的建议和预测分析。

Table showing general system configuration recommendations for a vision AI workload.
表 1. vision AI 工作负载的一般系统配置建议。实际建议将根据工作量和用例而有所不同。

边缘计算大小调整注意事项

当涉及到在边缘设计完整的硬件和软件解决方案时,重要的是将解决方案作为一个整体来看待,以了解各个部分是如何协同工作的。 IT 部门必须评估边缘 AI 部署的一些个人考虑事项如下所述。

流数量 :每个摄像机馈送都是一个流,需要一定量的内存和计算进行处理。 6-7 个视频处理流的小配置需要相对较小的系统。更大的部署可能需要通常在数据中心看到的高性能系统。

应用实例 :成功部署边缘人工智能的第一步是了解需要运行哪些工作负载才能实现目标。视觉 AI 应用,如图像识别、人或车辆检测和分割,都是常见的用例。

一旦确定了应用程序,就必须了解预期规模。例如,是否需要额外的人工智能模型?通常,概念验证( POC )将由单个 AI 模型和用例组成,但大多数生产部署最终都包含多个 AI 模型。接下来的步骤包括量化应用程序的业务价值、规定任何环境约束以及确保利益相关者的一致性。

内存 :边缘 AI 解决方案资源不足的最常见方法可能是配置内存太少的边缘系统。边缘 AI 系统需要比其他应用程序多得多的内存来支持 CPU 和 GPU 之间的推理机并行执行。

培训 AI 的数据科学团队或应用程序供应商将了解最新模型的内存需求。 IT 团队至少应该将这个数字增加一倍,以适应模型在重新培训时不可避免的扩展。这也将为需要与第一个模型一起部署的其他人工智能模型提供一些余量。

另一个经验法则是提供两倍于总 GPU 内存的系统内存,并且永远不低于总 GPU 内存的 1.5 倍。内存应均匀分布在所有 CPU 插槽和内存通道上,以获得最佳性能。

网络 :随着运营越来越依赖边缘计算等数字技术,弹性是关键。在设计边缘解决方案时,需要考虑两个网络:边缘 AI 位置和云之间的网络,以及传感器和边缘 AI 系统之间的网络。

了解环境的网络连接类型将有助于确定用例的特定网络带宽需求。例如,对于机器人这类不可能实现无线连接的用例, 5G 是下一个最佳选择,因为它提供了最小的拥塞和有保障的服务和带宽。

加速器 :大多数边缘应用程序都可以在单插槽 x86 或 Arm CPU 上运行。但当边缘应用程序结合了人工智能功能时,它们的计算密集度要高得多。

为了在边缘运行推理机,边缘硬件需要足够的计算能力来执行具有大规模并行计算的复杂神经网络。 CPU 顺序执行神经网络的所有独立单元,而谨慎加速器可以并行执行它们。因此,加速器在架构上适合于 AI ,从而提供更好的性能。它们已经成为现代人工智能基础设施的重要组成部分。

边缘 AI 最有效的离散加速器是 GPU 和 DPU 。

储存 :当然,边缘服务器需要本地存储,通常是固态硬盘,用于其操作系统、网络组件、硬件驱动程序和应用程序软件。与其他应用程序不同,边缘 AI 解决方案通常处理大量非结构化输入数据,如图像、语音和传感器读数。根据需要存储的数据量、存储时间、安全性和可靠性级别,需要不同的存储选项。

确定边缘 AI 解决方案所需存储的第一步需要 IT 团队考虑数据策略。数据策略将决定需要在本地或云中存储哪些数据以及存储多少数据。反过来,这将指导哪些存储选项最适合该特定解决方案。如果没有一个积极主动的策略,开发人员通常会做出不一致和次优的选择,从而在未来的道路上产生问题。

安全性 :边缘 AI 计算设备的安全性至关重要,因为它们部署在数据中心防火墙和限制系统访问的物理保护之外的远程位置。有关详细信息,请参见 Edge Computing: Considerations for Security Architects

当谈到边缘 AI 解决方案时,应了解五个领域,并将其作为整体解决方案架构的一部分:端到端加密、相互认证、物理安全、零信任网络和实时监控。

管理:远程管理计划对于边缘环境至关重要,因为边缘的系统是分布式的,始终处于打开状态,并且通常在远程设置下运行。请参见 Remotely Operating Systems and Applications at the Edge 了解更多信息。

边缘管理解决方案将具有自动部署和资源调配功能、持续管理、实时警报和审计。它还将使用现代的云原生工具。

组织可以选择是构建还是购买管理解决方案。以下是需要考虑的问题:需要多快建立解决方案?是否有合适的团队和专业知识?该解决方案是否提供了边缘环境的安全管理?

成功边缘部署的支柱

部署支持可扩展边缘 AI 解决方案所需的基础设施是一个巨大的挑战。这个过程是反复的,耗时的,但正确地完成是至关重要的。在构建边缘人工智能解决方案时所做的决策具有深远的影响,将影响组织的业务成果。

有关此主题的更多指导,请下载 An IT Manager’s Guide: How to Successfully Deploy an Edge AI Solution

工具书类

1.Gartner ,“构建边缘计算战略”, G007539201992 年 9 月, 2021 。 Gartner 是 Gartner 公司和/或其附属公司在美国和国际上的注册商标和服务商标,经许可在此使用。保留所有权利。

 

Tags