Gargi Prasad

Gargi Prasad는 NVIDIA DGX Cloud에서 레질리언스(resilience) 프로그램 리드를 맡고 있으며, AI 인프라의 안정성과 성능 최적화를 주요 업무로 담당하고 있습니다. NVIDIA 이전에는 Meta의 Core Infra 조직에서 대규모 분산 시스템을 지원했습니다. 15년 이상 업계 경험을 보유하고 있으며, Software/System Engineering과 Architecture 분야에 전문성을 가지고 있습니다. Delft University of Technology에서 병렬 및 분산 시스템을 전공으로 컴퓨터공학 석사 학위를 취득했습니다.

Posts by Gargi Prasad

Data Center / Cloud

NCCL Inspector로 AI 워크로드의 통신 성능 가시성 향상하기

딥러닝 훈련이나 추론 워크로드에서 AllReduce, AllGather, ReduceScatter 같은 집합 연산(collective… 4 MIN READ