NVIDIA のコンピュータービジョン

周辺環境を視覚的に認識、理解できるデバイスを実現するためには、スケーラブルで検証済みの卓越した性能のソフトウェアが必要です。

NVIDIA のソフトウェアは、モデルの開発から展開までを行う、個人開発者、高等教育機関、研究機関、企業をサポートし、エンドツーエンドのコンピュータービジョンワークフローを実現します。

コンピュータービジョンとは、スマートカメラなどのデバイスで画像や映像を取得、処理、分析、解釈できるようにするテクノロジ分野です。たとえば、コンピュータービジョンアルゴリズムを採用した運転支援システムでは、カメラやその他のセンサーを使用して、自動車の前後の画像を表示するだけでなく、そこに何があるのかを認識し、画像フレーム内の注目すべき領域や地点を特定して分類します。このように、コンピュータービジョンが安全を担保することで、運転中に路上の障害物、他の車両、動物、人間を回避できるようになります。これに似た例として、一部の農家では、収穫量を増やすために、コンピュータービジョン対応デバイスを利用して、広大な畑の中から自動的に雑草を識別したり、生育の良い作物などを特定したりしています。こうした今日のコンピュータービジョンのタスクには、人工知能、具体的には人間の脳を模した機械学習の一種であるディープラーニングが用いられています。ディープラーニングを用いたコンピュータービジョンモデルは、人間の専門家が必要とするよりもはるかに少ないインプットで同じレベルに適応し、デバイスのパフォーマンスを上げられるようになります。

コンピュータービジョンの手法

ほとんどのコンピュータービジョン手法では、まず、特定のタスク専用に大量のデータでトレーニングしたモデル (数学的アルゴリズム) を使用します。以下のような手法が一般的です。

分類

分類とは、画像または映像のフレーム内の物体を判断して分類することを指します。分類モデルは通常、大規模なデータセットを使用してトレーニングされ、犬、猫、いすなどの基本的な物体の識別や、路上に写っている車両の種類といったごく具体的な物体の識別を行います。分類出力の品質は、使用するトレーニングデータに左右され、トレーニングデータは、量が多く多様であるほど、精度が向上します。

検出

検出とは、画像または映像のフレーム内の 1 つまたは複数の物体の位置を特定することを指します。検出した物体の周囲に、アルゴリズムが長方形のバウンディングボックスを出力して、画像内の位置を示します。物体検出器をトレーニングすることで、自動車、道路標識、人間、その他の物体などを検出できるようになります。

セグメンテーション

セグメンテーションとは、画像内のすべてのピクセルにラベルを割り当て、画像内の物体や関心領域の位置を正確に特定することを指します。これにより、ラベルが同じピクセルは、特性 (色やテクスチャなど) が類似します。セグメンテーションモデルは、MRI スキャンで腫瘍を自動的に検出するなど、医療画像処理に非常によく使用されます。

画像合成

画像合成とは、特定の物体やコンテンツを含む画像を作成または人工的に生成することを指します。一般的に、こうした画像や映像フレームの合成には、ニューラルネットワークの一種である GAN (敵対的生成ネットワーク) が使用されます。画像合成の主な目的は、テキストからの画像生成で、GAN を使用してテキストの説明に基づいて画像を生成します。

NVIDIA の学習済みモデルでコンピューター
ビジョンを開発する

このようなモデルを自力で開発する場合、膨大な量のトレーニングデータ、時間、専門知識が必要になります。しかし、幸いなことに、エキスパートでなくても始められる方法があります。NVIDIA では、独自のコンピュータービジョンソリューションの開発を始められる、事前に構築済みですぐに使える学習済みモデルを多数用意しています。まずは、GPU アクセラレーションソフトウェアハブの NGC にアクセスし、コンピュータービジョンのモデルやリソース、その他のディープラーニングを用いた音声および自然言語処理のユースケースやアプリケーションフレームワークをご確認ください。

NGC カタログの学習済みモデルを確認する

エンドツーエンドのコンピュータービジョン
ワークフローを開発

NVIDIA の学習済みモデル、TAO、DeepStream を使用して、手軽にエンドツーエンドのコンピュータービジョン AI 開発プロセスを始めましょう。

AI モデル適応プラットフォーム

NVIDIA TAO

ユーザーインターフェイスベースのガイド付きワークフローソリューションにより、実運用レベルの高精度なコンピュータービジョンと対話型 AI モデルを作成します。

詳細を見る

ストリーミング分析ツールキット

NVIDIA Deepstream SDK

マルチセンサー処理、映像、音声、画像理解用のリアルタイムビジョン AI アプリケーションを構築します。

詳細を見る

スマートインフラストラクチャとスマートシティ

NVIDIA Metropolis

エンドツーエンドの映像ベースの分析プラットフォームを構築するか、業界エコシステムのパートナープラットフォームを使用します。

詳細を見る

各種 NVIDIA ソフトウェアのコンピュータービジョン

NVIDIA の業界別ソフトウェア製品およびプラットフォームを使用して、コンピュータービジョンアプリケーションを開発する方法をご紹介します。

医療

Clara

ジェスチャ認識、心拍数監視、マスク検出、病室での転倒を検知するための姿勢推定用のコンピュータービジョンモデルを開発します。医療画像処理、医療デバイスとストリーミングビデオ、スマートホスピタルのワークフローを構築、管理、展開します。

詳細を見る

自動運転

DRIVE

自動運転車 (AV) やインテリジェントコックピット (IX) 用のエンドツーエンド (E2E) のコンピュータービジョンソリューションを開発します。コンピュータービジョンデータの収集と生成、E2E シミュレーションプラットフォーム (DRIVE Sim) を使用した DNN モデルのトレーニングを行います。

詳細を見る

ビデオストリーミング

Maxine SDK

ビデオエフェクト、オーディオエフェクト、拡張現実を使用した、バーチャルでのコラボレーションおよびコンテンツ作成アプリケーションを作成します。

詳細を見る

マルチモーダル対話

Riva

視覚、音声、その他のセンサー入力を同時に融合するマルチモーダルの対話型 AI アプリケーションを開発します。

詳細を見る

次世代のコンピュータービジョンの構想

NVIDIA のコンピュータービジョンに関する新たなテクノロジと革新的な研究をご紹介します。

研究

新たなイノベーション

NVIDIA のコンピュータービジョンリサーチエンジニアとデータサイエンティストが解決してきた問題について、最新の研究発表をご覧ください。

詳細を見る

ロボティクス

NVIDIA Isaac Sim

仮想環境でロボットを開発、テスト、トレーニング、管理します。コンピュータービジョンを使用して、操作、ナビゲーション、合成データの生成を行います。

詳細を見る

NVIDIA の GPU アクセラレーションライブラリと最適化プラットフォーム

NVIDIA のライブラリと最適化プラットフォームによって、GPU 上のコンピュータービジョンを高速化する方法をご紹介します。

データパイプラインアクセラレータ

Data Loading Library (DALI)

GPU を使用して、コンピュータービジョンおよび音声データの読み込みと処理を行います。TensorFlow、PyTorch、MXNet、PaddlePaddle モデルで直接使用できます。

詳細を見る

3D ディープラーニング研究ライブラリ

NVIDIA KAOLIN Library

合成データを生成します。3D トレーニングデータセットをレンダリングして視覚化します。

詳細を見る

画像およびシグナル処理ライブラリ

NVIDIA Performance Primitives (NPP)

すぐに使用できる分野別かつ高性能の画像、映像、シグナル処理用関数を展開します。

詳細を見る

組み込みコンピュータービジョンおよび画像処理ライブラリ

Vision Programming Interface (VPI)

非同期のコンピュータービジョンおよび画像処理アプリケーションをリアルタイムで実装します。

詳細を見る

画像デコードライブラリ

nvJPEG と nvJPEG2000

JPEG および JPEG2000 画像の処理を高速化します。

詳細を見る

モーションフロー生成

Optical Flow SDK

GPU を使用してフレーム間のフローベクトル計算を強化することで、動画ストリーム内の物体や動作を認識、分類、追跡します。

詳細を見る

推論最適化およびランタイム

TensorRT

推論アプリケーションで低レイテンシと高スループットを実現します。

詳細を見る

世界を支える NVIDIA のコンピュータービジョン

よく寄せられる質問を確認する

コンピュータービジョンは、今や研究開発にとどまらず、人々の生活を変える実用的なソリューションに活用されています。人工知能とハイパフォーマンスコンピューティングに関する NVIDIA の高度な専門知識は、世界にさまざまな可能性を生み出しています。

詳細を見る

Get started with Frequently Asked Questions

コンピュータービジョンの基礎を学ぶ

コンピュータービジョンに馴染みがなければ、始める前に基礎を学びましょう。Deep Learning Institute のコースをお勧めします。これは 8 時間のコースで、ディープラーニングの基礎を学び、コンピュータービジョンの実践演習を行います。ディープラーニングモデルを一からトレーニングする方法、学習済みモデルを使用する方法、各種モデルアーキテクチャをテストする方法、ディープラーニングのツールや手法、データセットを使用してモデルの精度を向上させる方法などを学びます。さらに、コースの修了後には認定資格を取得できます。

すぐに参加する