今月も Triton Inference Server のリリース内容について、概要をお届けします。例によって、そもそも「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。
What’s New in 2.20.0 (NGC 22.03)
リリース ノート本体は https://github.com/triton-inference-server/server/releases/tag/v2.20.0 です。今月のリリースには以下の機能や改善などが含まれています。
- モデル ロード API を介した動的な設定変更が可能になりました
- ONNX Runtime、TensorRT、および TensorFlow バックエンドが、サーバー側での Ragged Batching をサポートするようになりました
- 以前 v.2.17.0 でドキュメント追加されていた機能が、正式リリースになったようです (参考: Triton Inference Server 2021 年 12 月のリリース概要)
- Prometheus 向けの統計値としてキャッシュ ミスに関するものが追加されました
- Trace 機能の設定を API 経由で変更可能になりました
- こちらも先月機能だけ追加されていたものが、正式リリースになったようです (参考: Triton Inference Server 2022 年 2 月のリリース概要)
今月もあまり大きなアップデートはありませんが、モデル ロード API を介した設定の動的な変更は注目ポイントでしょうか。
以前から Model Repository Extension には、モデル ロード / アンロードの API が含まれており、Triton の起動時オプションを適切に設定することで、動的にモデルを読み込んだり、あるいは特定モデルに割り当てられているサーバー上のリソースを解放したり、といったことが可能でした。しかし一方、設定を変更したい場合は、モデル リポジトリ (= Triton の起動時オプションとして `–model-repository` に渡す、サーバー上のディレクトリやクラウド ストレージ) 上に配置されている設定ファイルを書き換えたのち、モデルをロードしなおす必要がありました。今回の変更により、サーバー側のファイルを変更することなく、動的にモデルの設定を変更することができるようになります。ただし、利用する API がモデル ロード API であることからもわかる通り、モデル自体の再ロードは発生するため、一時的なサービス ダウンなどについての考慮が必要な点はご注意ください。
What’s New に言及されていないアップデート
今月の主なアップデートは、What’s New に言及されていたもので全てのようです。
まとめ
今月も先月に引き続き、アップデートはいずれも比較的小さなものでした。モデルの設定変更が API 経由で可能になるのは、用途によっては有益かと思います。引き続き機能追加など進められていますので、定期的にご確認いただければ。
その他、疑問点や問題点がある場合や、日本語で要望を書きたいという方など、自由にコメントなどいただければ幸いです!