Nick Comly

Nick Comly は NVIDIA で推論最適化のための製品を統括しています。彼のチームは、生成 AI の開発者向けの NVIDIA スタックの機能と性能の向上に重点的に取り組んでいます。スタンフォード大学でディープラーニングと最適化を専攻、修士号を取得。

Posts by Nick Comly

NVIDIA のフルスタックソリューションで AI 推論のパフォーマンスを最適化

NVIDIA は、AI 推論の可能性を再定義し、これまで以上に高速で、効率的かつ拡張可能なソリューションを提供するために、フルスタックのイノベーションを通じて開発者を支援しています。 2 MIN READ

Generative AI 2024 年 11 月 8 日

NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化

KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 2 MIN READ

Data Center / Cloud / Edge 2024 年 10 月 28 日

NVIDIA GH200 Superchip が、Llama モデルとのマルチターンインタラクションの推論を 2 倍高速化

NVIDIA GH200 Grace Hopper Superchip を活用し、システムスループットを犠牲にすることなく、x86 ベースの NVIDIA H100 サーバーと比較して、Llama 3 70B モデルでマルチターンでユーザーとのやり取りする場合、TTFT を最大 2 倍に向上させる方法について解説します。 2 MIN READ

Generative AI 2023 年 10 月 19 日

NVIDIA TensorRT-LLM で大規模言語モデルの推論を最適化

NVIDIA は、NVIDIA GPU 上の最新の LLMの推論性能を高速化および最適化する TensorRT-LLM の一般提供を発表しました。 3 MIN READ

Generative AI 2023 年 9 月 8 日

NVIDIA TensorRT-LLM が NVIDIA H100 GPU 上で大規模言語モデル推論をさらに強化

大規模言語モデルは驚くべき新機能を提供し、AI で実現できる領域を拡大しています。しかし、その大きなサイズと特有の実行特性は、 3 MIN READ