Posts by Nick Comly
Generative AI
2024년 11월 15일
NVSwitch와 TensorRT-LLM 멀티샷으로 3배 빠른 AllReduce 구현
사용자 수가 수백 명에서 수십만 명까지 변동하고 각 요청의 입력 시퀀스 길이가 다른 프로덕션 환경에서 생성형 AI 워크로드를 배포하는 데는 여러…
3 MIN READ
Data Center / Cloud
2024년 10월 30일
추론 속도를 2배 높인 NVIDIA GH200 슈퍼칩, Llama 모델과의 멀티턴 상호작용에서 추론 가속화
프로덕션 환경에 거대 언어 모델(LLM)을 배포하려면 사용자 상호 작용을 향상시키는 것과 시스템 처리량을 늘리는 것 사이에서 어려운 절충점을 찾아야…
4 MIN READ
Data Center / Cloud
2024년 8월 30일
NVLink Switch가 탑재된 NVIDIA HGX H200의 Medusa로 최대 1.9배 향상된 Llama 3.1 성능
거대 언어 모델(LLM)의 크기와 복잡성이 계속 증가함에 따라, 실시간 생성형 AI 애플리케이션이 요구하는 짧은 지연 시간과 높은 처리량을 제공하기…
3 MIN READ
Data Center / Cloud
2024년 5월 29일
업그레이드된 NVIDIA TensorRT 10.0의 사용성, 성능, AI 모델 지원
NVIDIA는 오늘 고성능 딥 러닝 추론을 위한 API 에코시스템인 NVIDIA TensorRT의 최신 릴리스를 발표했습니다.
4 MIN READ
Data Center / Cloud
2023년 12월 6일
NVIDIA H200에서 거대 언어 모델 속도 향상을 제공하는 NVIDIA TensorRT-LLM
거대 언어 모델(LLM)은 지난 한 해 동안 급격한 성장을 거듭했습니다. 뛰어난 사용자 경험을 제공하기 위해서는 높은 컴퓨팅 처리량과 대량의…
3 MIN READ
Generative AI
2023년 9월 12일
추론 성능 가속화하는 새로운 소프트웨어 TensorRT-LLM 출시
대규모 언어 모델(LLM)의 획기적인 새로운 기능은 AI의 영역을 넓히고 있습니다. 그러나 큰 크기와 특수한 실행 특성으로 비용 효율적인 방식으로…
5 MIN READ