Agentic AI / Generative AI

NVIDIA TensorRT Edge-LLM을 활용한 오토모티브 및 로보틱스용 LLM/VLM 추론 가속화

Reading Time: 4 minutes

거대 언어 모델(LLM)과 멀티모달 추론 시스템이 데이터 센터의 경계를 넘어 빠르게 확장되고 있습니다. 오토모티브 및 로보틱스 개발자들 사이에서는 지연 시간, 신뢰성, 오프라인 작동 여부가 핵심인 차량이나 로봇에서 대화형 AI 에이전트, 멀티모달 인식, 고수준 플래닝(Planning)을 직접 구동하려는 수요가 늘고 있습니다.

기존의 수많은 LLM 및 시각 언어 모델(VLM) 추론 프레임워크가 대규모 동시 접속 관리나 처리량 극대화 같은 데이터 센터 중심의 요구 사항에 집중해 온 반면, 임베디드 환경에서의 추론은 그에 최적화된 전용 솔루션을 필요로 합니다.

본 포스팅에서는 고성능 엣지 추론에 대한 이러한 요구를 해결하기 위해 LLM 및 VLM 추론용 오픈 소스 C++ 프레임워크인 NVIDIA TensorRT Edge-LLM을 소개합니다. Edge-LLM은 임베디드 오토모티브 및 로보틱스 플랫폼인 NVIDIA DRIVE AGX ThorNVIDIA Jetson Thor 상에서 실시간 애플리케이션을 구동할 수 있도록 특화 설계되었습니다. 해당 프레임워크는 NVIDIA JetPack 7.1 릴리스의 일부로 GitHub에 오픈 소스로 공개됩니다.

TensorRT Edge-LLM은 의존성을 최소화하여 양산형 엣지 애플리케이션 배포에 최적화되어 있습니다. 임베디드 환경에 필수적인 기능에 집중한 가볍고 효율적인 설계를 통해 프레임워크의 리소스 점유율(Footprint)을 최소 수준으로 낮췄습니다.

또한, TensorRT Edge-LLM은 EAGLE-3 추측 실행(Speculative Decoding), NVFP4 양자화 지원, 청크 프리필(Chunked Prefill) 등 최신 기능을 갖추고 있어, 높은 성능을 요구하는 실시간 사용 사례에서도 최상의 퍼포먼스를 제공합니다.

그림 1. TensorRT Edge-LLM은 추측 실행(Speculative Decoding) 기술이 적용된 Qwen3 모델을 통해 압도적인 성능을 보여줍니다

실시간 엣지 사용 사례를 위한 LLM 및 VLM 추론

엣지 기반의 LLM 및 VLM 추론 워크로드는 다음과 같은 특징을 보입니다.

  • 소수 또는 단일 사용자의 요청 처리
  • 카메라 입력 등을 처리하기 위한 낮은 배치 크기(Low batch size)
  • 미션 크리티컬 애플리케이션을 위한 양산형 배포
  • 업데이트 없이 수행되는 오프라인 작동

그 결과, 로보틱스 및 오토모티브 실시간 애플리케이션에는 다음과 같은 구체적인 요구 사항이 뒤따릅니다.

  • 예측 가능한 최소 지연 시간(Latency)
  • 최소한의 디스크, 메모리 및 컴퓨팅 자원 사용
  • 양산 표준 규격 준수
  • 높은 견고성과 신뢰성

TensorRT Edge-LLM은 이러한 임베디드 특화 요구 사항을 충족하고 우선순위에 두도록 설계되어, 임베디드 LLM 및 VLM 추론을 위한 강력한 토대를 제공합니다.

오토모티브 분야의 신속한 TensorRT Edge-LLM 채택

주요 파트너사들은 이미 차량용 AI 제품의 기반으로 TensorRT Edge-LLM을 활용하고 있습니다. CES 2026에서는 Bosch, ThunderSoft, MediaTek 등이 관련 기술을 선보입니다.

Bosch: Microsoft 및 NVIDIA와 협력하여 자연스러운 음성 상호작용이 가능한 차량용 AI 비서, AI 기반 콕핏을 개발하고 있습니다. 이 솔루션은 임베디드 자동 음성 인식(ASR) 및 음성 합성(TTS) 모델과 TensorRT Edge-LLM 기반의 LLM 추론을 결합했습니다. 또한 정교한 오케스트레이터를 통해 온보드 AI와 대규모 클라우드 AI 간의 유기적인 협업을 지원합니다.

ThunderSoft: 차세대 AIBOX 플랫폼(NVIDIA DRIVE AGX Orin 기반)에 TensorRT Edge-LLM을 통합하여 차량 내 반응형 온디바이스 LLM 및 멀티모달 추론을 구현합니다. ThunderSoft의 오토모티브 소프트웨어 스택과 TensorRT Edge-LLM의 경량 C++ 런타임 및 최적화된 디코딩 경로를 결합함으로써, 엄격한 전력 및 메모리 제한 내에서도 저지연 대화형 콕핏 경험을 제공합니다.

MediaTek: 최첨단 콕핏 AI 및 HMI 애플리케이션을 위한 CX1 SoC에 TensorRT Edge-LLM을 탑재했습니다. 이를 통해 운전자 및 실내 활동 모니터링 등 폭넓은 사용 사례에서 LLM과 VLM 추론을 가속화합니다. 또한 MediaTek은 새로운 임베디드 특화 추론 방식을 통해 TensorRT Edge-LLM 개발에 기여하고 있습니다.

이번 TensorRT Edge-LLM 출시로, 이러한 LLM 및 VLM 추론 역량은 이제 NVIDIA Jetson 생태계에서도 로보틱스 기술의 기반으로 활용될 수 있습니다.

TensorRT Edge-LLM의 내부 작동 원리

TensorRT Edge-LLM은 LLM 및 VLM 추론을 위한 엔드투엔드 워크플로우를 제공하도록 설계되었으며, 다음 세 단계로 구성됩니다.

  1. Hugging Face 모델을 ONNX 형식으로 내보내기
  2. 대상 하드웨어에 최적화된 NVIDIA TensorRT 엔진 빌드
  3. 대상 하드웨어에서 추론 실행
그림 2. 주요 구성 요소별 TensorRT Edge-LLM 워크플로우

파이썬 내보내기 파이프라인(Python export pipeline)은 양자화, LoRA 어댑터 및 EAGLE-3 추측 실행(speculative decoding) 기능을 지원하며, Hugging Face 모델을 ONNX 형식으로 변환합니다 (그림 3).

그림 3. TensorRT Edge-LLM Python 내보내기 파이프라인 단계 및 도구

엔진 빌더(Engine builder)는 임베디드 타겟 하드웨어에 최적화된 TensorRT 엔진을 빌드합니다 (그림 4).

그림 4. TensorRT Edge-LLM 엔진 빌더 워크플로우

C++ 런타임은 타겟 하드웨어에서 LLM 및 VLM 추론을 수행합니다. 입력 데이터와 이전에 생성된 토큰을 기반으로 다음 토큰을 생성하는 자기회귀(autoregressive) 모델의 반복적인 디코딩 루프에 TensorRT 엔진을 활용합니다. 사용자 애플리케이션은 이 런타임과 인터페이스하여 LLM 및 VLM 워크로드를 처리하게 됩니다.

그림 5. TensorRT Edge-LLM C++ 런타임의 프리필 및 디코딩 단계

각 구성 요소에 대한 더 자세한 설명은 TensorRT Edge-LLM 기술 문서를 참조해 주세요.

TensorRT Edge-LLM 시작하기

Jetson AGX Thor 개발 키트에서 LLM 및 VLM 추론을 시작할 준비가 되셨나요?

1. JetPack 7.1 릴리스를 다운로드합니다.

2. NVIDIA/TensorRT-Edge-LLM GitHub 리포지토리의 JetPack 7.1 릴리스 브랜치를 클론합니다.

git clone https://github.com/NVIDIA/TensorRT-Edge-LLM.git

3. TensorRT Edge-LLM 퀵 스타트 가이드를 참고하여 Hugging Face에서 지원 모델을 가져오고, ONNX로 변환하며, Jetson AGX Thor 플랫폼용 엔진을 빌드하고 C++ 런타임으로 실행하는 상세 지침을 확인하세요.

4. TensorRT Edge-LLM 예제를 탐색하여 다양한 기능과 성능에 대해 알아보세요.

5. 사용자 개별 요구 사항에 맞게 조정하려면 TensorRT Edge-LLM 커스터마이징 가이드를 참조하시기 바랍니다.

NVIDIA DRIVE AGX Thor 사용자의 경우, TensorRT Edge-LLM은 NVIDIA DriveOS 릴리스 패키지에 포함되어 있습니다. 향후 DriveOS 릴리스에서도 해당 GitHub 리포지토리를 활용하게 될 예정입니다.

LLM과 VLM이 엣지로 빠르게 이동함에 따라, TensorRT Edge-LLM은 Hugging Face 모델을 NVIDIA 오토모티브 및 로보틱스 플랫폼에서 구동되는 실시간 양산급 실행 모델로 전환하는 명확하고 신뢰할 수 있는 경로를 제공합니다.

지금 바로 워크플로우를 탐색하고, 모델을 테스트하며 차세대 지능형 온디바이스 애플리케이션 구축을 시작해 보세요. 자세한 정보는 NVIDIA/TensorRT-Edge-LLM GitHub 리포지토리에서 확인할 수 있습니다.

감사의 글

TensorRT Edge-LLM의 개발과 발전에 기여하고 지원해주신 Michael Ferry, Nicky Liu, Martin Chi, Ruocheng Jia, Charl Li, Maggie Hu, Krishna Sai Chemudupati, Frederik Kaster, Xiang Guo, Yuan Yao, Vincent Wang, Levi Chen, Chen Fu, Le An, Josh Park, Xinru Zhang, Chengming Zhao, Sunny Gai, Ajinkya Rasane, Zhijia Liu, Ever Wong, Wenting Jiang, Jonas Li, Po-Han Huang, Brant Zhao, Yiheng Zhang, 그리고 Ashwin Nanjappa 님께 깊은 감사를 드립니다.

Discuss (0)

Tags