2. さまざまなタイプのカメラへの適応

TAO Toolkit を使用すると、学習済みモデルを新しいドメイン、環境、センサーに簡単に適応させることができます

2.1 カメラ利用時の課題

どのコンピューター ビジョン アプリケーションにも、周囲の世界を感知する AI モデルが必要です。そのために最もよく使用されるセンサーが、カメラです。カメラを使用することで、AI モデルは視覚的な情報を入力として受け取り、オブジェクトの分類、検出、追跡などのタスクを実行できます。

カメラを使用する AI モデルを現場に展開する場合、環境的要因や技術的要因で変化するさまざまな条件に対応してきちんと機能することが求められます。カメラのタイプや設置場所によっては、画像の歪み、色ずれ、輝度レベルの変化などが発生します。現場へ速やかに展開するためには、特定の環境下で動作するようモデルをカスタマイズして、こうした要因やその他さまざまな制約に対処することが欠かせません。

たとえば、赤外線 (IR) カメラやサーマル カメラは、可視光スペクトルが使われていないため、低照度環境での撮影に非常に有効です。ただし、IR カメラは暗闇でも機能しますが、その画像出力にはカラー データがなく、低解像度であることが多く、オブジェクト間の境界もはっきりしません。このため、IR のデータセットに対して、通常の RGB 画像でトレーニングされた AI モデルを用いようとすると、多くの課題が出てきます。しかし、NVIDIA の学習済みモデルを利用すれば、カメラのタイプや環境的な条件が異なっていても、データの削減と学習時間の短縮が可能です。

図 1. 赤外線画像
図 1. 赤外線画像

2.2 解決策

AI や HPC のための GPU 最適化ソフトウェアのハブである NGC カタログは、特定の環境条件に合わせた微調整の土台として最適な、運用品質の学習済みモデルを提供しています。学習済みモデルは、あらかじめ代表的なデータセットでトレーニングされており、重み付けとバイアスによって調整されています。カスタム データで簡単に再トレーニングでき、トレーニングに要する時間は、ゼロから行う場合に比べてわずかで済みます。

たとえば、PeopleNet は、100 万枚を超える画像でトレーニングされた学習済みモデルで、周囲が混雑している場合や、部分的に隠れている場合、解像度が低い場合でも人物の検出が可能です。

図 2. NVIDIA PeopleNet による人物検出
図 2. NVIDIA PeopleNet による人物検出

NVIDIA PeopleNet は展開が容易で、何より、NVIDIA TAO Toolkit で微調整して、異なる環境への適応が可能です。このモデルは、明るい場所の画像でトレーニングされたものであるため、そのままであれば、熱 IR カメラの画像ではパフォーマンスが低下します。TAO Toolkit を使用すれば、IR 画像でうまく動作するよう、すばやくモデルを適応させることができます。

2.3 結論

異なるタイプのカメラ間での転移学習が有効であることを示すために、このユース ケースでは、タスクとして、NVIDIA の学習済みモデル PeopleNet を熱 IR 画像で動作するよう適応させます。また、学習済みモデルを使用することで、少量のデータで高い精度が達成できることを示すために、このタスクでは、IR カメラで撮影されたサイズの異なるデータセットで 2 パターンのモデルをトレーニングします。

ゼロからトレーニングしたモデルの場合、mAP (平均適合率の平均) が 77% に達するまでに約 6,300 枚の画像が必要でした。しかし、学習済みのモデル PeopleNet を土台にしてトレーニングしたモデルの場合、mAP が 78% を超えるまでに必要とした画像はわずか 2,500 枚でした。このユース ケースでは、学習済みの PeopleNet を使用することで、データを 60% 削減して同等の精度を達成することができます。つまり、画像の収集とアノテーションに余計な時間をかけることなく、少ないデータセットで速やかにトレーニングできるということです。

また、学習済みの PeopleNet は、6,300 枚の画像からなるデータセットでのトレーニングにおいても精度が高く、PeopleNet なしのトレーニングよりも 6% 高い 83% の mAP を実現しています。学習済みのモデルは、必要な画像がはるかに少ないだけでなく、未学習のモデルを使用する場合以上の精度が得られます。このタスクでは、学習済みのモデルを使用することで、より少ないデータセットで高い精度を達成し、データのラベル付けやトレーニングのコストを削減できることが示されました。

図 3. IR 画像での人物検出
図 3. IR 画像での人物検出
図 3. IR 画像での人物検出
図 4. IR データセットでの精度
図 4. IR データセットでの精度

このタスクは、FLIR 赤外線データセットを用いて実行しました。ガイド付きの完全なタスク実施手順は、TAO タスク GitHub リポジトリで入手できます。