TensorRT-LLM

2026년 6월 26일

DFlash 추론 가속 디코딩으로 NVIDIA Blackwell에서 최대 15배 추론 성능 향상하기

AI 시스템이 단일 대화형 상호작용에서 조율된 멀티 에이전트 워크플로우로 진화함에 따라 저지연 추론의 중요성이 더욱 커지고 있습니다.

5 MIN READ

2026년 5월 13일

NVIDIA로 차량 내 AI 에이전트 구축하기 — 클라우드부터 자동차까지 풀 스택 가이드

NVIDIA DRIVE AGX, MediaTek Dimensity AX C-X1, NeMo, TensorRT Edge-LLM을 활용해 룰 기반 명령에서 에이전틱 멀티모달 캐빈 어시스턴트로 진화하는 차량 내 AI 아키텍처와 클라우드-에지 하이브리드 파이프라인 구축 방법을 다룹니다.

9 MIN READ

2026년 4월 1일

NVIDIA 플랫폼, 극한의 공동 설계로 최저 토큰 비용 구현

NVIDIA Blackwell Ultra GPU가 MLPerf Inference v6.0에서 291회 누적 우승. DeepSeek-R1 Interactive 등 신규 벤치마크 전항목 1위, 소프트웨어 최적화로 6개월 만에 2.7배 성능 향상.

6 MIN READ

2026년 1월 14일

NVIDIA Blackwell 기반 MoE 추론 성능의 획기적 도약

AI 모델이 점점 더 똑똑해짐에 따라, 사용자들이 AI를 활용하는 업무의 범위도 비약적으로 넓어지고 있습니다. 일반 소비자부터 기업에 이르기까지…

4 MIN READ

2025년 10월 17일

NVIDIA 양자화 기술과 TensorRT-LLM을 이용한 서비스 최적화

이 글은 최신 LLM 서빙 환경에서 직면한 효율성과 ROI 문제를 해결하기 위해 NVIDIA TensorRT-LLM을 도입한 연구 사례를 다룹니다.

6 MIN READ

2025년 10월 10일

NVIDIA Blackwell, SemiAnalysis InferenceMAX™ v1 벤치마크에서 놀라운 기록을 세우다

SemiAnalysis가 최근 발표한 InferenceMAX™ v1은 추론 하드웨어 성능을 평가하기 위한 포괄적인 방법론을 제공하는 새로운 오픈…

7 MIN READ

2025년 9월 19일

AI 추론 지연 시간을 줄이기 위한 Speculative Decoding 소개

거대 언어 모델(LLM)로 텍스트를 생성할 때는 구조적인 한계로 인해 성능을 제대로 끌어내기 어려운 경우가 많습니다. GPU는 뛰어난 연산 성능을…

7 MIN READ

2025년 8월 8일

Ditto in Action: Torch-TensorRT로 손쉽게 LLM 추론 가속하기

Direct Torch to TensorRT-LLM Optimizer, 줄여서 Ditto는 Transformer 모델을 TensorRT 엔진으로…

5 MIN READ

2025년 8월 8일

LLM 추론 벤치마크: TensorRT-LLM을 활용한 성능 튜닝

이 글은 TensorRT-LLM으로 LLM 추론 성능을 벤치마킹하고 최적화하는 방법을 소개하는 시리즈의 세 번째 편입니다.

6 MIN READ

2025년 8월 6일

NVIDIA, GB200 NVL72로 OpenAI gpt-oss 모델을 클라우드부터 엣지까지 초당 150만 토큰 속도로 가속

NVIDIA와 OpenAI는 2016년 NVIDIA DGX 출시를 시작으로 AI의 한계를 넓혀왔습니다. 이번에는 OpenAI의 gpt-oss…

4 MIN READ

2025년 5월 28일

NVIDIA Blackwell 플랫폼 DeepSeek-R1 추론 성능에서 세계 기록 달성

NVIDIA는 NVIDIA GTC 2025에서 DeepSeek-R1 추론 성능 세계 기록을 발표했습니다.

9 MIN READ

2025년 5월 28일

Blackwell, Meta의 Llama 4 Maverick을 활용해 사용자당 1,000 TPS 장벽 돌파

NVIDIA가 세계 최고 속도의 거대 언어 모델(LLM) 추론 성능을 달성했습니다. NVIDIA Blackwell GPU 8개를 탑재한 단일…

6 MIN READ

NVIDIA 풀스택 솔루션을 통한 AI 추론 성능 최적화

2025년 5월 15일

NVIDIA 풀스택 솔루션을 통한 AI 추론 성능 최적화

2025년 3월 18일부로 NVIDIA Triton Inference Server는 이제 NVIDIA Dynamo로 명칭이 변경되었습니다.

5 MIN READ

2025년 3월 12일

Spotlight: NVIDIA TensorRT-LLM을 활용한 NAVER Place의 SLM Vertical Service 운영 최적화

NAVER Place에서는 Place 영역에 특화된 SLM Vertical Service를 운영하여 플레이스 프로덕트 전반(플레이스, 지도…

7 MIN READ

2024년 12월 13일

NVIDIA TensorRT-LLM, 인플라이트 배치로 인코더-디코더 모델 가속화

NVIDIA는 최근 NVIDIA TensorRT-LLM이 인코더-디코더 모델 아키텍처를 가속화한다고 발표했습니다.

3 MIN READ

2024년 9월 25일

엣지에서 클라우드로 가속화된 Llama 3.2 배포하기

오픈 소스 Meta Llama 모델 컬렉션을 확장한 Llama 3.2 컬렉션에는 비전 언어 모델(VLM), 소규모 언어 모델(SLM)…

4 MIN READ