2022 年 11 月末にリリースされた Triton Inference Server の各機能などについて、概要をお届けします。「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。
What’s New in 2.28.0 (NGC 22.11)
リリース ノート本体は https://github.com/triton-inference-server/server/releases/tag/v2.28.0 です。このリリースには以下の機能や改善などが含まれています。
- TensorRT 8.5 の新機能がサポートされるようになりました
- UINT8 I/O
- “Data dependent dynamic shapes” operators (i.e. ONNX NMS and NonZero operations)
- 環境変数
EXECUTION_ENV_PATH
を用いて、 Python バックエンド実行環境のパスを、モデル ディレクトリ外に設定できるようになりました
先月から引き続き、今回も更新が少なくなっております。次回も更新が同程度の少なさだった場合、この日本語によるリリース概要は 3 か月に一度程度に頻度を落とすかもしれません。
TensorRT 8.5 の新機能については、新しく UINT8 のようなデータ型が追加されたり、独立したレイヤーとしての NMS (Non-Maximum Suppression) が追加されたりしています。Triton Inference Server でも、これらを活用したモデルを扱えるようになる、ということになります。
環境変数 EXECUTION_ENV_PATH
については、従来から Python バックエンドで使用する Python のランタイムをカスタマイズできていたのですが (参考: Python Backend – Managing Python Runtime and Libraries – Creating Custom Execution Environments)、作成した環境は Triton 実行時に指定する --model-repository
内部に配置する必要がありました。今回の更新で、それ以外の任意の場所に配置することができるようになります。ただし現状、クラウド上のストレージを指定した場合の動作が未定義、という制限があります。(= ローカルのファイル システムのみ指定可能)
What’s New 以外のアップデート
今月の、What’s New で言及されていない更新点は以下の通りです。
- Metrics API のレスポンス ヘッダーに、文字コードが明示されるようになりました (PR#4701)
- TensorFlow 向け JIT グラフ最適化のドキュメントが更新されました (PR#5022)
今月も、What’s New 以外の更新も少なめでした。Metrics API のレスポンス ヘッダーについては、これまで Content-Type: text/plain
というヘッダーだったのが、今後は Content-Type: text/plain; charset=utf-8
に変化する、ということです。マルチバイト文字を利用するケースはあまり多くないと思いますが、必要な時には考慮された状態ということになります。
まとめ
今月も細かい改善がいくつかという感じで、依存ライブラリのバージョン アップ追従や、ドキュメント類の整備がメインのトピックだったように思われます。今後も継続的に改善は続けられると思いますので、定期的に更新内容をご確認いただければ幸いです。また機能要望などあれば、公式リポジトリに issue を上げていただけるとありがたいです。