Dong Ahn

Dong Ahn 是 NVIDIA AI Data-Infra 优化团队的杰出工程师,负责为模型构建器构建端到端可靠性系统。在加入 NVIDIA 之前,Dong 曾在利弗莫尔计算的开发环境团队 (DEG) 工作了 20 年。Dong 曾参与过多个代码开发工具以及新一代资源管理和调度软件框架项目,他们的共同目标是为大型计算系统提供功能强大且可扩展的软件生态系统。

Posts by Dong Ahn

AI 平台/部署

在 NVIDIA DGX 云上确保模型训练可靠性

在大型 GPU 集群上训练 AI 模型给模型构建者带来了重大挑战。随着作业规模的增加,人工干预变得不切实际, 1 MIN READ