Brian Pharris

Brian은 NVIDIA의 컴퓨팅 아키텍처 그룹의 수석 아키텍트로, 가장 최근에는 GPU 가속 딥 러닝 추론에 집중하고 있습니다. 그는 MIT에서 전기 공학 및 컴퓨터 과학 학사 및 석사 학위를 받았습니다.

Posts by Brian Pharris

Generative AI

NVSwitch와 TensorRT-LLM 멀티샷으로 3배 빠른 AllReduce 구현

사용자 수가 수백 명에서 수십만 명까지 변동하고 각 요청의 입력 시퀀스 길이가 다른 프로덕션 환경에서 생성형 AI 워크로드를 배포하는 데는 여러… 3 MIN READ
Data Center / Cloud

NVLink Switch가 탑재된 NVIDIA HGX H200의 Medusa로 최대 1.9배 향상된 Llama 3.1 성능

거대 언어 모델(LLM)의 크기와 복잡성이 계속 증가함에 따라, 실시간 생성형 AI 애플리케이션이 요구하는 짧은 지연 시간과 높은 처리량을 제공하기… 3 MIN READ