Computer vision 是一个快速发展的研究和应用领域。计算机视觉研究的进展现在更直接、更直接地适用于商业世界。
人工智能开发人员正在实施计算机视觉解决方案,以识别和分类对象,甚至对其作出实时反应。图像分类、人脸检测、姿态估计和光流是一些典型的任务。计算机视觉工程师是 deep learning ( DL )或 machine learning ( ML )工程师的子集,他们编写计算机视觉算法来完成这些任务。
DL 算法的结构非常适合解决计算机视觉问题。 卷积神经网络 ( CNN )的体系结构特征能够检测和提取视觉数据中存在的空间模式和特征。
计算机视觉领域正在迅速改变汽车、医疗保健和机器人等行业,很难跟上最新发现、趋势和进展。这篇文章重点介绍了正在影响并将继续影响 2022 年及以后计算机视觉发展未来的核心技术:
- 帮助扩展 DL 解决方案的云计算服务。
- 自动化 ML ( AutoML )解决方案,可减少标准 ML 管道中所需的重复工作。
- transformer 研究人员开发的优化计算机视觉任务的体系结构。
- 结合计算机视觉技术的移动设备。
云计算
云计算通过互联网为个人或企业提供数据存储、应用服务器、网络和其他计算机系统基础设施。云计算解决方案提供快速、经济高效、可扩展的按需资源。
大多数 ML 解决方案都需要存储和高处理能力。数据集管理的早期开发(聚合、清理和争论)通常需要云计算资源来存储或访问 BigQuery 、 Hadoop 或 BigTable 等解决方案应用程序。
最近,具有计算机视觉功能的设备和系统显著增加,例如用于步态分析的姿势估计、智能手机的人脸识别和自动车辆的车道检测。
云存储的需求正在快速增长, projected 预计该行业的价值将达到 3903.3 亿美元,是 2021 市场当前价值的五倍。 market size 的增加将导致使用入站数据来训练 ML 模型的增加。这与更大的数据存储容量需求和越来越强大的计算资源直接相关。
GPU 可用性加快了计算机视觉解决方案的速度。然而,单凭 GPU 还不足以提供这些应用程序所需的可扩展性和正常运行时间,尤其是在为数千甚至数百万消费者提供服务时。云计算提供了启动和补充现有内部基础设施缺口所需的资源。
云计算平台,包括 Amazon Web 服务( AWS ) 、 谷歌云平台( GCP ) 和 Microsoft Azure 为 ML 和数据科学项目管道的核心组件提供端到端解决方案,包括数据聚合、模型实现、部署和监控。对于设计视觉系统的计算机视觉开发人员来说,重要的是要了解这些主要云服务提供商的优势,以及如何配置它们以满足特定和复杂的管道需求。
大规模计算机视觉需要云服务集成
以下是支持典型计算机视觉系统的 NVIDIA 服务示例。
预训练 DL 模型的 NGC Catalog 降低了模型训练和实现的复杂性。
DL scripts 提供现成的可定制管道。强健的模型部署解决方案自动化了向最终用户的交付。
NVIDIA Triton 推理服务器 支持在任何基于 GPU 或 CPU 的基础设施上部署来自 TensorFlow 和 PyTorch 等框架的模型。 Triton 推理服务器提供了跨各种平台(包括云、边缘和嵌入式设备)的模型可扩展性。
NVIDIA 与云服务提供商(如VZX18)的合作伙伴关系支持部署基于计算机视觉的资产,因此计算机视觉工程师可以将更多精力放在模型性能和优化上。
企业在可行的情况下降低成本并优化战略。云计算和云服务提供商通过提供基于使用情况的计费解决方案和基于需求的扩展来实现这两个目标。
AutoML
ML 算法和模型开发涉及许多任务,这些任务可以受益于自动化,如特征工程和模型选择。
特征工程涉及从数据集中检测和选择相关特征、属性和属性。
模型选择涉及评估一组 ML 分类器、算法或给定问题的解决方案的性能。
特征工程和模型选择活动都需要 ML 工程师和数据科学家花费大量时间来完成。软件开发人员经常重新访问工作流的这些阶段,以提高模型性能或准确性。
有几个正在进行的大型项目可以简化复杂的 ML 项目管道。 AutoML 专注于自动化和增强工作流及其过程,以使 ML 易于访问,并减少非 ML 专家的手动强度。
从市场价值来看, projections 预计到 2030 年, AutoML 市场将达到 140 亿美元。这意味着将比当前值增加约 42 倍。
ML 和自动化的这种特殊结合正在获得吸引力,但也有局限性。
实践中的 AutoML
AutoML 节省了数据科学家和计算机工程师的时间。 AutoML 功能使计算机视觉开发人员能够将更多精力投入到计算机视觉开发管道的其他阶段,以最好地利用他们的技能集,如模型培训、评估和部署。 AutoML 有助于加速数据聚合、准备和超参数优化,但工作流的这些部分仍然需要人工输入。
构建正确的模型需要数据准备和聚合,但它们是重复的、耗时的任务,依赖于找到合适的数据质量源。
同样,超参数优化可能需要大量时间进行迭代以获得正确的算法性能。它涉及到一个有根据的猜测的试错过程。寻找合适的超参数所需的重复工作量可能会很繁琐,但对于使模型的训练达到所需的精度至关重要。
对于那些对 GPU 驱动的 AutoML 感兴趣的人来说,广泛使用的 基于树的管道优化工具 ( TPOT )是一个自动化的 ML 库,旨在通过利用遗传编程优化 ML 过程和管道。 RAPIDS cuML 提供使用 GPU 计算资源加速的 TPOT 功能。有关更多信息,请参阅 使用 TPOT 和 RAPIDS 实现更快的 AutoML 。
机器学习库和框架
ML 库和框架是任何计算机视觉开发人员工具包中的基本元素。主要 DL 库,如 TensorFlow 、 PyTorch 、 Keras 和 MXNet 在 2021 收到了持续的更新和修复,并且在未来可能会继续这样做。
最近,以移动为中心的 DL 库和优化常用 DL 库的包取得了令人兴奋的进展。
MediaPipe 于 2021 扩展了姿势估计功能,通过 BlazePose 模型提供 3D 姿势估计,该解决方案可在浏览器和移动环境中使用。 2022 年,预计将在涉及动态运动和需要稳健解决方案的用例中看到更多姿势估计应用,例如舞蹈中的运动分析和虚拟角色运动模拟。
PyTorch 闪电 由于它的简单性、复杂神经网络实现细节的抽象性和硬件考虑的扩展性,在研究人员和专业 ML 从业者中越来越流行。
最先进的深度学习
DL 方法长期以来被用来解决计算机视觉的挑战。用于人脸检测、车道检测和姿态估计的神经网络结构都使用深层连续的 CNN 。一种新的计算机视觉算法架构正在出现:变形金刚。
transformer 是在 注意力是你所需要的 中引入的 DL 体系结构。论文方法通过使用 attention mechanism 来推导输入数据的一部分相对于输入数据的其他部分的重要性,从而创建数据的计算表示。
transformer 没有使用 CNN 的约定,但研究表明 transformer 型号 在 vision-related tasks 中。变形金刚在 NLP 领域内产生了相当大的影响。有关更多信息,请参阅 发电预培训变压器 ( GPT )和 变压器的双向编码器表示 ( BERT )。
通过包含 PyTorch 中实际 transformer 模型的架构和使用细节的 NGC Catalog 探索 transformer 模型。
有关将 Transformer 网络体系结构应用于计算机视觉的更多信息,请参阅 视觉中的变形金刚:一项调查 论文。
移动设备
边缘设备正变得越来越强大。对于希望快速提供服务和 AI 功能的客户来说,设备上推理功能是移动应用程序的必备功能。
将计算机视觉功能(如图像和模式识别)纳入移动设备中,可以减少获取模型推理结果的延迟,并提供以下好处:
- 缩短等待时间 用于获取设备计算的推断结果。
- 增强隐私和安全性 由于云服务器之间和到云服务器的数据传输有限。
- 云上的 降低了删除依赖项的成本 和 CPU 服务器进行推断。
许多企业正在探索移动产品,其中包括探索如何在移动设备上复制现有 AI 功能。以下是实施 mobile first AI 解决方案的几个平台、工具和框架:
总结
随着人工智能越来越多地融入我们的日常生活,计算机视觉技术不断发展。计算机视觉在最新的新闻头条中也变得越来越普遍。随着这项技术的扩展,由于云计算服务、自动 ML 管道、转换器、以移动为中心的 DL 库和计算机视觉移动应用程序的发展趋势,对具有计算机视觉系统知识的专家的需求也将增加。
2022 年,增强型和 VR 应用程序的不断发展将使计算机视觉开发人员能够将其技能扩展到新的领域,例如开发在 3D 空间中复制和与真实对象交互的直观高效方法。展望未来,计算机视觉应用将继续改变并影响未来。