2、适应不同相机类型 | NVIDIA 开发者
利用迁移学习调整和助力 AI 工作流的各种方法
NVIDIA TAO 工具套件和预训练的模型如何改变您的开发工作
2. 进行调整以适应不同的摄像头类型
2.1 行业面临的问题
所有计算机视觉应用都需要一个 AI 模型来感知周围的世界。摄像头是用于这一目的的常用传感器,它可以使 AI 模型接收视觉输入并完成对象分类、检测和追踪等任务。
如果现场部署了需要依靠摄像头的 AI 模型,它们必须能够在因环境和技术因素而异的各种条件下正常工作。摄像头的类型及其位置可能会造成图像失真、颜色偏移和亮度变化等问题。通过自定义模型来解决这些问题并摆脱其他限制,从而使摄像头能够在特定环境下正常工作,对于快速进行现场部署至关重要。
例如,红外 (IR) 摄像头或热成像摄像头非常适用于在低光环境下捕捉图像,因为它们不使用可见光谱。虽然 IR 摄像头可以在黑暗环境下工作,但 IR 摄像头的图像输出缺少颜色数据,分辨率通常较低,而且对象之间没有清晰的轮廓。在尝试对 IR 数据集使用基于常规 RGB 图像进行训练的 AI 模型时,这些问题可能会带来诸多挑战。然而,预训练的 NVIDIA 模型有助于减少所需的数据和训练时间,即便在不同的摄像头类型和环境条件下。
2.2 从预训练的 AI 模型开始
预训练的 PeopleNet 模型已使用超过 100 万张图像进行训练,这些图像都是在光线良好的区域拍摄的。该模型可以检测拥挤环境中的人员、被部分遮挡的人员以及分辨率较低的人员。该模型的原始版本在处理热成像 IR 摄像头拍摄的图像方面表现很差。不过,通过使用 TAO 工具套件,我们可以对该模型进行调整,使其在处理 IR 图像方面取得良好表现。
为了展示在使用不同类型的摄像头时迁移学习的功能,这项任务对预训练的 NVIDIA PeopleNet 模型进行了调整,以便处理热红外图像。这项任务还展示了预训练的模型如何通过基于从 IR 摄像头获得的不同规模的数据集训练两个模型,在使用更少数据的情况下,实现更高的准确度。
2.3 结果
从零开始训练模型需要大约 6300 张图像才能达到 77% 的 mAP。但是,如果从预训练的 PeopleNet 模型开始,则仅需 2500 张图像即可达到超过 78% 的 mAP。在本用例中,如果使用预训练的 PeopleNet 模型,可以在少使用 60% 的数据的情况下,实现同等的准确度。这意味着,可以减少采集和标注额外的图像所花费的时间,并可以使用较小的数据集更快速地进行训练。
表 1. 这些数据显示了使用 6300 张图像从零开始训练 PeopleNet 模型以及仅使用 2500 张图像进行微调所获得的结果。
此外,使用包含 6300 张图像的完整数据集进行训练时,预训练的 PeopleNet 模型总体上可以实现更高的准确度,达到 83% 的 mAP;与不使用 PeopleNet 进行训练相比,高出 6%。这项任务展示了使用预训练的模型时,如何通过使用较小的数据集实现更高的准确度,从而节省数据标记成本和训练成本。



这项任务使用了 FLIR 热成像数据集。您可以在 TAO 任务 GitHub 资料库中找到完整的任务实现以及分步指南。