TAO Toolkit

お金をかけて AI の専門知識を習得しなくても、AI 開発スピードを 10 倍に加速できます。トレーニングをスピードアップして、精度の高い、高性能のドメイン別 AI モデルをすばやく作成できます。


今すぐ始める


ビジネスの課題を解決するための AI/ML モデルを一から作成するのは、お金と時間がかかります。転移学習 は、学習済みの特徴量を、既存のニューラル ネットワーク モデルから新しいモデルに抽出するときによく使われる手法です。NVIDIA TAO Toolkit は AI/DL フレームワークの複雑さを抽象化する AI ツールキットです。高品質の学習済みモデルを使用するため、わずかな量のデータでも運用品質のモデルをすばやく構築できます。

AI アプリやサービス構築のためのツールキットとして、大規模なデータの収集やラベリングにかかるコスト、AI/ML モデルを一からトレーニングする負担などを解消します。

TAO を使用すると、NVIDIA の運用品質の学習済みモデルをそのままデプロイするか、コンピューター ビジョンや対話型 AI などのさまざまなユースケースに合わせてモデルを微調整して使用できます。TAO は、AI 作成のための UI ベースのガイド付きワークフロー、TAO (Train, Adapt and Optimize) プラットフォームの中核的なコンポーネントです。

software stack diagram

手間をかけずにトレーニング

最先端の AI を最小限のコーディングでアプリケーションに追加。AI フレームワークの専門知識は不要

精度の高い AI

専用の学習済みモデルを利用して、障壁を取り除き、高いネットワーク精度を獲得。

スループットを向上

デプロイ コストを大幅に削減し、高スループットの推論を実現。



コンピューター ビジョンや対話型 AI 向けの、運用カスタム モデルをすばやく作成

一からモデルを作成して最適化したり、最適化されていないオープン ソース モデルを利用したりするなど、アプリケーション強化に時間をかけるのはやめましょう。TAO は NVIDIA の運用品質の学習済みモデルを使用して、エンジニアリング作業を 10 倍以上高速化し、高いスループットと精度を短期間で達成します。これらの AI モデルはNGCカタログから無料ですぐにダウンロードできます。

10x


一般的な AI タスク向けの学習済みモデル

コンピューター ビジョンの学習済みモデル

さまざまな業界ユースケース向けに構築された NVIDIA の学習済みモデルを使用すると、AI プロジェクトをすばやく立ち上げて、概念実証 (PoC) から運用まで迅速に進められます。AI モデルは、混雑空間における人体の検出と集計、車両の検出と分類、道路料金所でのナンバー プレートの検出と認識、駐車管理、医療施設の患者の心拍数監視など、一般的なコンピューター ビジョンのユースケースにそのまま利用できます。

顔のランドマーク推定

PeopleNet

姿勢推定

ナンバー プレートの検出と認識

people detection

人体検出

駅などの混雑した空間で人、荷物、顔を検出します。顧客体験の向上、歩道の混雑状況の分析などに活用されます。

lpd recognition

ナンバー プレートの検出と認識

車両のナンバー プレートを検出および識別します。違法駐車の取締り、自動料金所、交通量監視など、さまざまなアプリケーションへに応用されます。

vehicle detection

車両の検出と分類

スマート シティ向けに車種や車のメーカー/モデルを検出します。

人体検出モデル

PeopleNet

画像の中の人を検出する 3 クラスのオブジェクト検出ネットワーク。

NGC で見る

PeopleSegNet

画像の中の人のインスタンスを検出してセグメント化する 1 クラスのインスタンス セグメンテーション ネットワーク。

NGC で見る

PeopleSemSegNet

背景から人を分離する 1 クラスのセマンティック セグメンテーション ネットワーク。

NGC で見る

FaceDetect

画像から顔を検出します。

NGC で見る

FaceDetect-IR

IR 画像の中の顔を検出する 1 クラスのオブジェクト検出ネットワーク。

NGC で見る

ナンバー プレートの検出と認識モデル

LPDNet

車の画像の中のナンバー プレートを検出するオブジェクト検出ネットワーク。

NGC で見る

LPRNet

車のナンバー プレートの画像から文字を認識。

NGC で見る

車両検出モデルと車両分類モデル

TrafficCamNet

画像の中の車やその他の物体を検出する 4 クラスのオブジェクト検出ネットワーク。

NGC で見る

DashCamNet

画像の中の車やその他の物体を検出する 4 クラスのオブジェクト検出ネットワーク。このネットワークは移動カメラからオブジェクトを検出。

NGC で見る

VehicleMakeNet

車を 20 の人気カー ブランドのいずれかに分類 (Acura、Audi、BMW、Chevrolet、Chrysler、Dodge、Ford、GMC、Honda、Hyundai、Infiniti、Jeep、Kia、Lexus、Mazda、Mercedes、Nissan、Subaru、Toyota、Volkswagen)。

NGC で見る

VehicleTypeNet

車両をクーペ、セダン、SUV、バン、大型車両、トラックに分類。

NGC で見る
pose estimation

姿勢推定

人体の主な関節を認識します。

gaze estimation

視線推定

人がどこを見ているかを 3D の視線で推定します。

facial landmark

顔のランドマーク

顔の主なランドマークを検出、追跡して形状を予測し、画像の中の顔をローカライズします。

姿勢推定モデル

姿勢推定

人体の主な関節を認識。

NGC で見る

視線推定モデル

視線推定

人の目の注視点とベクトルを検出。

NGC で見る

顔のランドマーク モデル

顔のランドマーク推定

顔の画像からキーポイントを検出。

NGC で見る
heart rate estimation

心拍数推定

コンピューター ビジョンを使用して心拍数を推定します。ヘルスケアや患者モニタリングで使用します。

human gesture

ジェスチャーと感情

さまざまな手の動きと感情を検出するコンピューター ビジョン。

segmentation

セグメンテーション

フレーム内の複数の物体の各インスタンスをピクセル レベルで識別します。

心拍数推定モデル

HeartRateNet

RGB の顔の動画から人の心拍数を非侵襲的に推定します。

NGC で見る

ジェスチャーと感情モデル

EmotionNet

顔から感情を分類するネットワーク。

NGC で見る

GestureNet

手の画像からジェスチャーを分類。

NGC で見る

セグメンテーション モデル

インスタンス セグメンテーション MaskRCNN

物体の周囲のバウンディングボックスとセグメンテーション マスクを作成。

NGC で見る

セマンティック セグメンテーション - UNET

ピクセル レベルの画像分類を実行。画像内のあらゆるピクセルをクラス ラベルに割り当て。クラス内のすべてのインスタンスを同じラベルに収集。

NGC で見る

PeopleSegNet

画像の中の人のインスタンスを検出してセグメント化する 1 クラスのインスタンス セグメンテーション ネットワーク。

NGC で見る

PeopleSemSegNet

背景から人を分離する 1 クラスのセマンティック セグメンテーション ネットワーク。

NGC で見る
text recognition

テキスト認識

画像からテキストを認識します。

object detection

オブジェクト検出

フレーム内の 1 つまたは複数の物体を検出して、その周囲にバウンディング ボックスを配置します。

image-classification

画像分類

画像の特徴量に基づいて、画像を指定のクラスに容易に分類します。対象ネットワーク アーキテクチャ: ResNet、GoogLeNet、EfficientNet、VGG、DarkNet、MobileNet、CSPDarkNet

テキスト認識モデル

テキスト認識

車のナンバー プレートの画像から文字を認識。

NGC で見る

オブジェクト検出モデル

DetectNet_v2

高いパフォーマンスで実行できるよう最適化された NVIDIA のオブジェクト検出アーキテクチャ。

NGC で見る

YOLOv3、YOLOv4、FasterRCNN、SSD/DSSD、RetinaNet

NVIDIA GPU のパフォーマンスに最適化されたオープン モデル アーキテクチャ。

NGC で見る

画像分類モデル

画像の特徴量に基づいて、画像を指定のクラスに容易に分類します。対象ネットワーク アーキテクチャ: ResNet、GoogLeNet、EfficientNet、VGG、DarkNet、MobileNet、CSPDarkNet

NGC で見る

モデル アーキテクチャを使用して最先端の精度を実現

TAO Toolkit では、ResNet、VGG、FasterRCNN、RetinaNet、YOLOv3/v4 など 100 種以上のニューラル ネットワーク アーキテクチャ を使用して、特定のユースケース向けに自前のデータでモデルを微調整できます。また、一からトレーニングを行う代わりに、NVIDIA の共通 AI タスク向けの運用品質の多目的モデル を使用することも可能です。

画像分類
オブジェクト検出
セグメンテーション
DetectNet_V2
FasterRCNN
SSD
YOLOV3
YOLOV4
RetinaNet
DSSD
MaskRCNN
UNET
ResNet
10/18/34/50/101

VGG16/19

GoogLeNet

MobileNet V1/V2

SqueezeNet

DarkNet 19/53

CSPDarkNet 19/53

EfficientNet B0/B1

TAO Toolkit は、人気のネットワーク アーキテクチャとバックボーンを利用して、データのトレーニング、微調整、プルーニングを行った後、高度に最適化された精度の高い AI モデルをエクスポートして、高スループットの推論を実現します。



最先端の AI モデルをデプロイする

モデルのプルーニングと量子化認識トレーニングで推論を高速化





AI ソリューションを構築する企業は、メモリに制約があっても高速な推論を実行できる、予測効率と精度の高い AI モデルを求めています。コンピューター ビジョンのユースケースでは、多くの場合、プルーニングしていない AI モデルは性能の低い端末用に最適化されていません。限られたデータセットで問題を解決したい場合は、転移学習とパーティション プルーニングによってチャネル密度を向上することで、高スループットの推論を実現します。

詳細を見る


一般に、AI モデルは低精度で実行する方が、計算効率が高くなります。INT8 精度 の AI モデルは、浮動小数点演算で推論を実行するよりも格段に高速です。FP32/16 の重みをトレーニング後に INT8 に量子化すると、量子化のエラーによりモデルの精度が低下することがあります。TAO Toolkit の量子化認識トレーニング (QAT) 機能は、トレーニング段階で重みを量子化することにより、トレーニング後の量子化と比べても FP16/FP32 モデルに比肩する精度を実現できます。TAO Toolkit の QAT を使用すると、INT8 の演算精度での推論を最大で 2 倍に高速化しながら、FP16 と同等の精度を維持できます。

詳細を見る

Nano
TX2 NX
Xavier NX
AGX Xavier
T4
A100
モデル アーキテクチャ
推論の解像度
演算精度
モデルの精度
GPU (FPS)*
GPU (FPS)*
GPU (FPS)
DLA1 (FPS)
DLA2 (FPS)
GPU (FPS)
DLA1 (FPS)
DLA2 (FPS)
GPU (FPS)
GPU (FPS)
PeopleNet-ResNet34
960x544x3
INT8
84% mAP
11
31
182
58
58
314
75
75
1043
6001
TrafficCamNet
960x544x3
INT8
84% mAP
19
51
264
105
105
478
140
140
1703
9520
LPD
640x480x3
INT8
98% mAP
66
178
770
194
194
1370
256
256
5921
21931
Facial Landmark
80x80x1
FP16
6.1 pixel error
125
319
747
-
-
1451
-
-
4735
23117
GazeNet
224x224x1
224x224x1
224x224x1
25x25x1
FP16
6.5 RMSE
98
280
923
-
-
1627
-
-
5219
26534
People Semantic Segmentation
960x544x3
INT8
92% MIOU
1.4
6
17
9
9
28
12
12
103
519
2D Body Pose Estimation
288x384x3
INT8
56% mAP
5
12
97
-
-
166
-
-
563
2686

Jetson Nano、TX2 NX、AGX Xavier、T4、Ampere A100 GPU などのプラットフォーム全体で、NVIDIA の学習済みモデルを使用して推論パフォーマンスをさらに高めましょう。バッチ サイズやその他のモデルについては、パフォーマンス データシートの詳細を参照してください。

注意: * Jetson Nano と TX2 NX での FP16 推論



DEEPSTREAM SDK による強力なエンドツーエンド ビジョン AI パイプライン







DeepStream SDK と TAO Toolkit を使用して、ピクセルやセンサーのデータを実践に役立つインサイトに変換する、エンドツーエンドのサービスやソリューションを構築しましょう。TAO Toolkit が生成する運用向けの AI モデルは、NVIDIA DeepStream SDKTensorRT と容易に統合して高スループットの推論を実行できます。スマート シティやスマート病院、工業検査、ロジスティクス、交通量監視、小売分析などさまざまなアプリケーションで高いパフォーマンスを発揮します。

詳細を見る

ストリーム密度を最大限に高めて自在にデプロイできる DeepStream SDK

対話型 AI の学習済みモデル

対話型 AI 用 TAO Toolkit は、自動音声認識 (ASR) や自然言語処理 (NLP) のユースケースをサポートしています。すぐに使える NGC の学習済みモデルを使用すると、インテント認識、エンティティ認識、感情分析などを必要とする、個人向けのリアルタイム コール センター体験、スマート キオスク、高品質サービスを簡単に設計できます。

speech recognition

音声認識 (ASR)

自動音声認識 (ASR) は人間の音声を取り込み、読解可能なテキストに変換します。

nlp

自然言語処理 (NLP)

自然言語理解 (NLU) は入力としてテキストを取り込み、コンテキストと意図を理解し、インテリジェントな返答を生成します。

音声認識 (ASR) モデル

Jasper

音声セグメントをテキストに書き起こす、エンドツーエンドのニューラル自動音声認識 (ASR) モデル。

NGC で見る

QuartzNet

音声の断片をテキストに書き起こすエンドツーエンドのニューラル自動音声認識 (ASR) モデル。

NGC で見る

CitriNet

エンドツーエンドの自動音声認識 (ASR) 用に最適化された小型版の QuartzNet。

NGC で見る

自然言語処理 (NLP) モデル

BERT Text Classification

このモデルはドキュメントを定義済みのカテゴリーに分類します。

NGC で見る

BERT NER

テキストの一部を入力として取り込み、そのテキストの各単語が属するカテゴリーを識別。

NGC で見る

BERT Punctuation

単語の後に続く句読点を予測し、単語を大文字にすべきかどうかを予測。

NGC で見る

BERT Intent and Slot

意図を分類し、クエリ内で関連するすべてのスロット (エンティティ) を検出。

NGC で見る

Question Answering Bert Large

どんな文脈でも抽出可能な質問応答をする Bert Large Uncased モデル。

NGC で見る

Question Answering Bert Base

どんな文脈でも抽出可能な質問応答をする Bert Uncased モデル。

NGC で見る

Question Answering Megatron

質問応答データセット SQuADv2.0 でトレー二ングされた、質問応答用の Megatron Uncased モデル。

NGC で見る


最先端の対話型 AI モデルをデプロイする

Rivaを活用した強力なエンドツーエンド AI パイプライン




Riva は、最先端のディープ ラーニング モデルを使用してマルチモデルの対話型 AI サービスを構築、デプロイする、開発者向けの完全アクセラレーション アプリケーション フレームワークです。TAO Toolkit を使用すると、企業の開発者が簡単に自社のデータで最先端のモデルを微調整し、特定の文脈において高い精度を達成できます。最適化された学習済みモデルと転移学習を使用すれば、転移学習でない手動アプローチの 1/10 のデータ量でアプリケーションのトレーニングとデプロイが可能です。

詳細を見る
TAO Toolkit ConvAI Workflow Diagram 1920x800.jpg

学習済みモデル、TAO Toolkit、Riva を使用してエンドツーエンドの対話型 AI パイプラインをトーレ二ングしデプロイ




データ生成とデータ アノテーションのパートナー

AI トレーニングには高品質のラベル付きデータが大量に必要です。NVIDIA は、トレーニングを高速化するため、データの作成とアノテーションに関して数社と提携しています。

AI Reverie logo

機械学習アルゴリズムのトレーニングと AI の精度向上に役立つ、合成データとビジョン API のスイートを提供。


詳細を見る
Hasty.ai logo

ラベル付けを高速化する、AI を使用したアノテーション ソリューション

詳細を見る
Sky Engine logo

画像やビデオ分析のための、次世代自己学習型 AI システム

詳細を見る
Lightly logo

各ユース ケースに最適なデータを選択できるようにする、データ キュレーション プラットフォームを提供

詳細を見る
Appen logo

各種ユース ケース向けに高品質なトレーニング データを提供

Labelbox logo

機械学習アプリケーション用にラベル付けしたデータを作成、管理する、コラボレーション型データ トレーニング プラットフォーム

Sama logo

AI や機械学習のモデル向けに、高品質なトレーニング データや、検証およびアノテーション ソリューションを提供

CVEDIA logo

オブジェクト検出や画像分類のためのエンドツーエンドのセマンティック コンピュータ ビジョンソ リューション を提供

詳細を見る


お客様の声


「有料道路の包括的な自動ナンバー プレート認識システム、INEX RoadView では、NVIDIA のエンドツーエンド ビジョン AI パイプラインと運用向け AI モデル、TAO Toolkit、DeepStream SDK を採用しています。これにより、エンジニアリング チームの開発時間を 60% 削減しただけでなく、Jetson Nano と Xavier NX を使用してカメラのハードウェア費用も 40% 抑えられました。その結果ベンダーは、唯一の標準 ALPR ソリューション、RoadView をすばやく確実にデプロイできました。こんなに優れたソリューションはありません」


INEX

「KION Group は、ブランド全体で堅牢な AI ベースの流通自動化ソリューションに取り組んでいます。運用のニーズやロジスティクスの最適化という課題に対処することで、フロー内の例外的な事象が大幅に減少します。最適化された NVIDIA の学習済みモデルは、イノベーション、エンジニアリング、デジタル トランスフォーメーション サービスに大きなメリットをもたらしています。すばやく作成したモデルを、TAO Toolkit で適宜微調整を行い、NVIDIA Deepstream でデプロイすることで、Jetson プラットフォームでのマルチストリーム密度を向上しています」


KION

「Quantiphi は、小売業界、メディアおよびエンターテイメント業界の Fortune 500 企業向けに、NVIDIA SDK を使用したリアルタイム ビデオ アナリティクス ワークフローを構築しています。TAO Toolkit を活用すると、トレーニングとモデル プルーニングをカスタマイズしてエッジの推論を効率的に高速化できます。DeepStream では、高スループットの推論パイプラインをクラウドで構築して Jetson NX 端末に簡単に移植できます」


Quantiphi

「開発者とサードパーティ ベンダーが Optra のスキル マーケットプレイスを活用して、インテリジェントな AI アプリをすばやく構築できるようにしています。エッジ AI 市場の新規参入者にとって、製品と市場投入までの時間を差別化できるかどうかが死活問題です。すぐに使える TAO Toolkit の MaskRCNN と DeepStream は簡単に統合できるため、研究開発チームの開発負担を 25% 軽減できました」


Lexmark Ventures

「NVIDIA の TAO Toolkit を使用すると、リアル タイムで簡単に車両やナンバー プレートを検出するトレーニングを実行できます。一からモデルを構築する必要がないため、短時間でモデルを開発し、さまざまなオプションを試せるようになりました」


Booz Allen Hamilton

「SmartCow は、港湾やドックでのターンアラウンド タイムを最適化する、ターンキー AIoT ソリューションを構築しています。TAO Toolkit を使用してトレーニングの反復作業を 1/9 に、データ収集とラベル付けの作業を 1/5 にまで減少させ、トレーニングのコストを半減させることができました」


SmartCow

「CVEDIA のセマンティック アルゴリズム技術は、オブジェクト検出や画像分類ネットワークの開発を加速させます。NVIDIA TAO Toolkit を使用することで、モデルの学習時間を半分に短縮し、同レベルのモデル精度とスループット性能を達成した」


CVEDIA



よく寄せられる質問

はい、TAO Toolkit モデルの商用利用は無料です。ライセンス条項の詳細は、モデルのエンドユーザー ライセンス契約を参照してください。
TAO Toolkit は、ユーザーとはまったく関係ない TensorFlow と PyTorch フレームワークを使用します。ユーザーは文書化されている仕様ファイルに従って TAO Toolkit を操作するため、DL フレームワークについて学ぶ必要はありません。
TAO Toolkit を使い始めるのはとても簡単です。TAO Toolkit のgetting started guideをご覧ください。また、あらゆるビジョン モデルの Jupyter Notebook が NGC の resourcesにあります。TAO Toolkit の詳細については、TAO Toolkit-CV collectionTAO Toolkit-Conversational AI collectionを参照してください。
TAO Toolkit はサードパーティの学習済みモデルをサポートしていません。現在 NGC の NVIDIA 学習済みモデルのみがサポート対象です。
TAO Toolkit を使用したトレーニングは、V100 などの NVIDIA GPU を搭載した x86 上でのみ行います。TAO Toolkit でトレーニングしたモデルは、Jetson を含むあらゆる NVIDIA プラットフォームにデプロイできます。
トレーニング済みモデルを DeepStream にデプロイするには、TAO Toolkit Getting Started Guide の章「Deploying to DeepStream」を参照してください。
専用のモデルをそのまま使用することも、自分のデータセットで再トレーニングすることもできます。検出、セグメンテーション、分類用のアーキテクチャ固有モデルは TAO Toolkit で再トレーニングが必要です。
NVIDIA Train, Adapt, and Optimize (TAO) は、企業の AI アプリケーションやサービスの開発を簡素化し加速する AI モデル適応プラットフォームです。UI ベースのガイド付きワークフローを通じて学習済みモデルをカスタム データで微調整すれば、これまで数か月費やしていた精度の高いコンピューター ビジョン、音声、言語理解モデルの作成が、数時間で完了します。大規模なトレーニングや AI についての専門知識は必要ありません。
TAO Toolkit、フェデレーテッド ラーニング、TensorRT などのテクノロジは、TAO プラットフォームの中核要素です。TAO プラットフォームでは、シンプルな UI とガイド付きワークフローにより、モデルのトレーニング、適応、最適化を行えます。TAO Toolkit は、スタンドアロン製品です。ユーザーが使い慣れている TAO Toolkit 環境でコマンド ライン インターフェイスを使用してモデルを最適化できます。
TAO Toolkit はスタンドアロン製品として開発およびサポートを継続していきます。
NVIDIA TAO の早期アクセス プログラムを現在実施中です。これは NVIDIA の製品チームと緊密に協力して製品を形作っていく絶好の機会です。早期アクセスにはこちらからサインアップできます。

Latest Product News

GTC

Developer Tutorial

Learn how to train and optimize pose estimation model for real-time inference.

Read Blog - Part 1 Read Blog - Part 2
Dev Tutorial

Developer Tutorial

Learn how to create a real-time number plate detection and recognition app.

Read Blog
tutorial

Developer Tutorial

Learn how to train State-Of-The-Art Models for classification and object detection

Read Blog
TAO

Explore TAO Platform

NVIDIA TAO is an AI-model-adaptation platform that simplifies and accelerates the creation of enterprise AI.

詳細を見る

GTC21 Talk

GTC21 Talk

Learn how the world’s top AI teams combine pre-trained models and transfer learning tools to supercharge their AI vision development.

Watch Now
GTC21 Talk

GTC21 Talk

Learn how to build and deploy a custom conversational AI app with NVIDIA TAO Toolkit and Riva

Watch Now
Success Story

Success Story

Learn how Lexmark uses pre-trained models, TAO Toolkit ,and DeepStream to reduce AI skills design cycle by 25%.

Read Blog
Success Story

Success Story

Explore how INEX leverages pre-trained models, TAO Toolkit ,and DeepStream to reduce development time and cost for toll road systems.

Read More