Reading Time: < 1 minute

今月も Triton Inference Server のリリース内容について、概要をお届けします。例によって、そもそも「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。

What’s New in 2.20.0 (NGC 22.03)

リリースノート本体は https://github.com/triton-inference-server/server/releases/tag/v2.20.0 です。今月のリリースには以下の機能や改善などが含まれています。

モデルロード API を介した動的な設定変更が可能になりました
ONNX Runtime、TensorRT、および TensorFlow バックエンドが、サーバー側での Ragged Batching をサポートするようになりました
- 以前 v.2.17.0 でドキュメント追加されていた機能が、正式リリースになったようです (参考: Triton Inference Server 2021 年 12 月のリリース概要)
Prometheus 向けの統計値としてキャッシュミスに関するものが追加されました
Trace 機能の設定を API 経由で変更可能になりました
- こちらも先月機能だけ追加されていたものが、正式リリースになったようです (参考: Triton Inference Server 2022 年 2 月のリリース概要)

今月もあまり大きなアップデートはありませんが、モデルロード API を介した設定の動的な変更は注目ポイントでしょうか。

以前から Model Repository Extension には、モデルロード / アンロードの API が含まれており、Triton の起動時オプションを適切に設定することで、動的にモデルを読み込んだり、あるいは特定モデルに割り当てられているサーバー上のリソースを解放したり、といったことが可能でした。しかし一方、設定を変更したい場合は、モデルリポジトリ (= Triton の起動時オプションとして `–model-repository` に渡す、サーバー上のディレクトリやクラウドストレージ) 上に配置されている設定ファイルを書き換えたのち、モデルをロードしなおす必要がありました。今回の変更により、サーバー側のファイルを変更することなく、動的にモデルの設定を変更することができるようになります。ただし、利用する API がモデルロード API であることからもわかる通り、モデル自体の再ロードは発生するため、一時的なサービスダウンなどについての考慮が必要な点はご注意ください。

What’s New に言及されていないアップデート

今月の主なアップデートは、What’s New に言及されていたもので全てのようです。

まとめ

今月も先月に引き続き、アップデートはいずれも比較的小さなものでした。モデルの設定変更が API 経由で可能になるのは、用途によっては有益かと思います。引き続き機能追加など進められていますので、定期的にご確認いただければ。

その他、疑問点や問題点がある場合や、日本語で要望を書きたいという方など、自由にコメントなどいただければ幸いです!

Triton Inference Server 2022 年 3 月のリリース概要

What’s New in 2.20.0 (NGC 22.03)

What’s New に言及されていないアップデート

まとめ

Tags

About the Authors

Triton Inference Server 2022 年 3 月のリリース概要

What’s New in 2.20.0 (NGC 22.03)

What’s New に言及されていないアップデート

まとめ

Tags

About the Authors

関連記事

Triton Inference Server 2022 年 12 月 - 2023 年 2 月のリリース概要

アンサンブル モデルによる NVIDIA Triton Inference Server 上での ML モデル パイプラインのサービング

Triton Inference Server 2022 年 11 月のリリース概要

Triton Inference Server 2022 年 10 月のリリース概要

Triton Inference Server 2022 年 9 月のリリース概要

アンサンブルモデルによる NVIDIA Triton Inference Server 上での ML モデルパイプラインのサービング