AI Inference / Inference Microservices

2025년 4월 16일
NVIDIA, Meta Llama 4 Scout 및 Maverick에서의 추론 가속화
많은 관심을 받아온 Llama AI 모델의 최신 버전, Llama 4 Scout와 Llama 4 Maverick이 새롭게 공개됐습니다.
3 MIN READ

2025년 3월 12일
Spotlight: NVIDIA TensorRT-LLM을 활용한 NAVER Place의 SLM Vertical Service 운영 최적화
NAVER Place에서는 Place 영역에 특화된 SLM Vertical Service를 운영하여 플레이스 프로덕트 전반(플레이스, 지도…
7 MIN READ

2025년 2월 13일
DeepSeek-R1 및 추론 시간 스케일링을 통한 GPU 커널 생성 자동화
AI 모델이 점점 더 정교한 문제를 해결하기 위해 기능을 확장하면서, 테스트 시간 확장 또는 추론 시간 확장이라는 개념이 등장하고 있습니다.
4 MIN READ

2025년 2월 7일
OpenAI Triton, NVIDIA Blackwell에서 AI 성능 및 프로그래머블성 향상
행렬 곱셈과 어텐션 메커니즘은 현대 AI 워크로드의 연산적 기반입니다. NVIDIA cuDNN과 같은 라이브러리는 고도로 최적화된 구현을 제공하며…
3 MIN READ

2024년 12월 13일
NVIDIA TensorRT-LLM, 인플라이트 배치로 인코더-디코더 모델 가속화
NVIDIA는 최근 NVIDIA TensorRT-LLM이 인코더-디코더 모델 아키텍처를 가속화한다고 발표했습니다.
3 MIN READ

2024년 11월 15일
NVSwitch와 TensorRT-LLM 멀티샷으로 3배 빠른 AllReduce 구현
사용자 수가 수백 명에서 수십만 명까지 변동하고 각 요청의 입력 시퀀스 길이가 다른 프로덕션 환경에서 생성형 AI 워크로드를 배포하는 데는 여러…
3 MIN READ