Posts by Hao Wang
Data Center / Cloud
2024년 10월 30일
추론 속도를 2배 높인 NVIDIA GH200 슈퍼칩, Llama 모델과의 멀티턴 상호작용에서 추론 가속화
프로덕션 환경에 거대 언어 모델(LLM)을 배포하려면 사용자 상호 작용을 향상시키는 것과 시스템 처리량을 늘리는 것 사이에서 어려운 절충점을 찾아야…
4 MIN READ