Posts by Alex S. Na
Generative AI
2026년 2월 9일
엔터프라이즈 LLM 서빙을 위한 NeMo Microservices 아키텍처
LLM을 실제 서비스 환경에 적용해 운영하다 보면, 시간이 지날수록 체감 성능이 서서히 저하되는 현상을 피하기 어렵습니다.
13 MIN READ
Generative AI
2025년 10월 17일
NVIDIA 양자화 기술과 TensorRT-LLM을 이용한 서비스 최적화
이 글은 최신 LLM 서빙 환경에서 직면한 효율성과 ROI 문제를 해결하기 위해 NVIDIA TensorRT-LLM을 도입한 연구 사례를 다룹니다.
6 MIN READ