Posts by Jason Tichy
AI Platforms / Deployment
2025년 9월 3일
CPU-GPU 메모리 공유를 통한 대규모 LLM 추론 및 KV 캐시 오프로드 가속화
거대 언어 모델(LLM)은 AI 혁신의 최전선에 있지만, 그 방대한 크기 때문에 추론 효율성에 어려움을 주기도 합니다.
4 MIN READ