TensorRT-LLM

2025년 3월 12일
Spotlight: NVIDIA TensorRT-LLM을 활용한 NAVER Place의 SLM Vertical Service 운영 최적화
NAVER Place에서는 Place 영역에 특화된 SLM Vertical Service를 운영하여 플레이스 프로덕트 전반(플레이스, 지도…
7 MIN READ

2024년 12월 13일
NVIDIA TensorRT-LLM, 인플라이트 배치로 인코더-디코더 모델 가속화
NVIDIA는 최근 NVIDIA TensorRT-LLM이 인코더-디코더 모델 아키텍처를 가속화한다고 발표했습니다.
3 MIN READ

2024년 9월 25일
엣지에서 클라우드로 가속화된 Llama 3.2 배포하기
오픈 소스 Meta Llama 모델 컬렉션을 확장한 Llama 3.2 컬렉션에는 비전 언어 모델(VLM), 소규모 언어 모델(SLM)…
4 MIN READ

2024년 8월 14일
Writer, 의료 및 금융을 위한 도메인별 LLM 출시
Writer는 두 가지 새로운 도메인 전용 AI 모델인 Palmyra-Med 70B와 Palmyra-Fin 70B를 출시하여 NVIDIA NIM의…
4 MIN READ

2024년 5월 17일
NVIDIA TensorRT Model Optimizer로 생성형 AI 추론 성능 가속화
빠르게 진화하는 생성형 AI 환경에서 가속화된 추론 속도에 대한 요구는 여전히 시급한 문제입니다. 모델 크기와 복잡성이 기하급수적으로 증가함에 따라…
6 MIN READ