概念验证( POC )是成功 部署 边缘人工智能 的第一步。
公司采用边缘 AI 来提高效率、自动化工作流程、降低成本并改善整体客户体验。当他们这样做时,许多人意识到在边缘部署人工智能是一个新的过程,需要与传统数据中心不同的工具和程序。
如果不清楚成功和失败的边缘人工智能解决方案的区别,组织往往会从 POC 流程开始,陷入常见的陷阱。
事实上, Gartner 详细指出,到 2025 年,在没有企业边缘计算战略的情况下部署的 50% 的边缘计算解决方案将无法实现部署时间、功能或 成本 方面的目标。
作为领先的人工智能基础设施公司, NVIDIA 帮助无数组织、客户和合作伙伴成功构建了他们的边缘人工智能 POC 。本文详细介绍了常见的边缘 AI POC 挑战和解决方案。
开始之前
组织在开始该过程之前做出的第一个决定是决定是从人工智能软件供应商那里购买解决方案,还是建立自己的解决方案。
通常,没有内部人工智能专业知识的公司与软件供应商合作。供应商深入了解最佳实践,并可以提供指导,使 POC 流程尽可能精简和经济高效。
具有技术能力的公司可以以较低的成本构建定制解决方案。
定义从开发到生产的步骤
虽然开发和部署应用程序的过程可能因不同的组织而异,但大多数组织都遵循以下过程:
- AI 模型开发
- 亲身体验
- 概念证明
- 生产
AI 模型开发
您的数据需求取决于您是使用预训练模型还是从头开始构建。即使购买了人工智能应用程序,大多数模型仍必须根据环境中的标记数据进行重新训练,以达到所需的精度。
一些数据源可能包括边缘传感器的原始数据、合成数据或众包数据。预计数据收集是模型开发最耗时的任务,其次是优化训练管道。
该阶段的目的是证明项目的可行性和模型的准确性,而不是获得生产水平的性能。这一阶段正在进行,因为随着新数据的收集,模型将不断重新训练。
亲身体验
组织对其 POC 的准备越充分,部署就越顺利。我们强烈建议您在 POC 阶段使用免费试用来测试不同的软件选项。
例如, NVIDIA LaunchPad 等免费程序为测试和原型端到端解决方案工作流所需的所有硬件和软件堆栈提供了精心策划的体验。结果是,可以在生产中部署相同的堆栈,从而实现更可靠的软件和基础架构决策。
在开始 POC 之前测试解决方案简化了整个流程,并将进入无休止 POC 的常见陷阱降至最低。
概念证明
POC 是一个为期 1 至 3 个月的项目,其中定义了 IT 需求,购买了硬件,并使用公司数据对模型进行了培训,并在公司的生产环境中部署到有限的地点。
与实际测试不同,这一步的关键是整合公司的数据,而不仅仅是测试标准软件、硬件和通用数据。 POC 验证过程的目标是验证问题解决方案是否适合,以及解决方案是否能够满足业务需求。它作为解决方案完全缩放之前的最终测试。
生产
在生产中,人工智能模型被部署到每个预定位置,并完全发挥作用。预计将进行持续监测。
常见的挑战是什么?
遵循这四个步骤可以最大限度地提高顺利部署的机会。不幸的是,大多数企业陷入 POC 阶段,因为他们没有正确地确定项目范围、理解需求、定义成功的衡量标准,或者没有正确的工具和流程。
要充分利用 POC 计划,请考虑一个解决方案,以应对企业在边缘部署 AI 时面临的以下常见挑战:
- POC 设计不一致
- 手动管理边缘环境
- POC 逐渐进入生产
POC 设计不一致
在准备 POC 项目时,首先设定期望值,然后对其进行调整。这些步骤应包括确定要解决的高价值用例、设定项目范围、确定成功的衡量标准以及确保利益相关者的一致性。
高价值使用案例
确保你的问题陈述具有很高的价值,可以用人工智能解决。关键是要认识到哪些类型的问题可以交给人工智能,哪些问题可以通过管理变革或改进员工培训来解决。
解决为您的组织提供高价值的问题有助于证明解决方案的有效性和实现扩展所需的资源和预算。选择一个低价值的用例会导致项目在推出完整的解决方案之前失去焦点。
解决业务问题的高价值用例示例包括提高安全性、效率和客户体验,以及降低成本和浪费。
成功的衡量标准
POC 的目的是快速验证解决方案,因此运行具有明确项目目标的重点 POC 非常重要。
如果没有正确定义成功标准,组织通常会经历“移动目标岗位”现象,他们会发现自己不断调整和重新设计 POC ,以满足不断变化的目标。无休止的 POC 成本高昂且耗时。
最常见的成功衡量标准包括:
- Accuracy :人工智能能解决这个问题吗?通过测试模型是否能够达到所需的精度来验证。准确度是应该测试的第一个指标。如果无法达到模型精度,则应采用另一种解决方案。
- Latency :解决方案是否为整个系统或流程增加了价值?用人工智能解决问题是不够的,它必须提供价值。例如,如果生产线上的计算机视觉应用程序运行正常,但要求公司以 50% 的速度运行生产线,那么降低生产线速度的成本不值得使用人工智能。
- Efficiency :解决方案是否具有成本效益?检查解决方案的资本支出和运营支出是否比其他解决方案更有利。例如,如果网络升级是边缘 AI 模型有效的必要条件,那么仅仅雇佣人员在生产线上检查产品是否更便宜?
在执行 POC 之前定义 POC 目标、范围和成功标准是了解所选用例和解决方案是否能够真正实现预期效益的最佳方式。
利益相关者对齐
POC 需要多元化的团队。为了优化您的成功机会,尽早确定并与技术和业务专家接洽。
参与的利益相关者通常是企业主、人工智能开发人员、数据科学家、 IT 、 SecOps 团队和人工智能软件提供商。人工智能软件提供商尤其重要,因为他们拥有知识、经验和最佳实践。在这个阶段,确定每个利益相关者的责任,包括项目规模扩大后谁拥有项目。
手动管理边缘环境
边缘环境是独特的,因为它们高度分散,部署在远程位置,没有经过培训的 IT 人员,而且往往缺乏数据中心所拥有的物理安全性。
这些功能在部署、管理和升级边缘系统时带来了独特的、经常被忽视的挑战。每次需要升级或出现问题时, It 团队都要在每个远程边缘站点手动解决问题,这是非常困难和耗时的。
不幸的是,现有的数据中心工具并不总是适用于边缘 AI 环境。此外,由于 POC 部署在有限的地点,因此组织通常在这一阶段忽略管理工具,选择手动更新其模型。
POC 是一个高度迭代的过程,因此在此阶段实施管理平台可以帮助组织节省时间。对于尚未具备边缘管理工具的客户, NVIDIA Fleet Command 等交钥匙解决方案可以帮助 POC 的推出以及向生产的过渡。
远程管理
在设置、第 1 天和第 2 天操作开始后,组织必须部署和扩展新应用程序、更新现有应用程序、排除错误并验证新配置。
拥有安全的远程管理功能至关重要,因为生产部署包含您希望保持安全的重要数据和见解。
第三方访问
组织应实施一个具有高级功能的管理解决方案,用于第三方访问和安全功能,如实时( JIT )访问、明确定义的访问控制和定时会话。
软件供应商、系统集成商和硬件合作伙伴只是需要访问您的系统的少数不同方。再加上远程管理功能,第三方可以帮助您更新 POC 环境,而无需物理访问您的边缘位置。
监测
即使在 POC 阶段,跟踪性能也很重要,因为它可以帮助确定大小并显示瓶颈可能出现的位置。这些都是在缩放之前要考虑的重要因素。
POC 逐渐进入生产
POC 不必为其成功做好充分的生产准备。虽然组织在 POC 阶段越接近生产规范,就越容易扩展,但大多数 POC 都不是为生产而设计的。
很多时候,公司使用他们手头的任何硬件或软件。这意味着在 POC 完成后,企业应返回并在最终部署之前更新其模型和硬件。许多人没有。
以下是从 POC 过渡到生产的一些技巧。
衡量疗效
跟踪所有软件和硬件的有效性,以帮助决定哪些应该投入生产,哪些必须升级。
使用企业级硬件和软件
虽然在 POC 期间使用企业可能已经拥有的现有系统是可以的,但要花更多的时间了解生产所需的系统以及这些变化的任何影响。
仅使用可信来源的软件,并在需要时提供支持。许多部署边缘应用程序的组织在没有研究软件是否来自可信来源的情况下在线下载软件,然后意外下载了恶意软件。
为成功做好准备
最终, POC 只是成功部署的第一步。它们旨在帮助组织确定一个项目是否应该向前推进,以及它是否有效地利用了他们的资源。边缘人工智能是大多数组织的范式转变。要避免部署解决方案时的常见陷阱,请参阅 An IT Manager’s Guide: How to Successfully Deploy an Edge AI Solution 。