Posts by Jamie Li
Data Center / Cloud
2025년 9월 19일
AI 추론 지연 시간을 줄이기 위한 Speculative Decoding 소개
거대 언어 모델(LLM)로 텍스트를 생성할 때는 구조적인 한계로 인해 성능을 제대로 끌어내기 어려운 경우가 많습니다. GPU는 뛰어난 연산 성능을…
7 MIN READ