Shelby Thomas

Shelby 是 NVIDIA 在 DGX 云中训练可靠性的产品负责人。在加入 NVIDIA 之前,他曾在 OctoAI 从事跨各种硬件平台加速 ML 模型部署的工作,并在 Google 开发了深度学习模型。他拥有加州大学圣地亚哥分校的计算机科学博士学位。

Posts by Shelby Thomas

AI 平台/部署

在 NVIDIA DGX 云上确保模型训练可靠性

在大型 GPU 集群上训练 AI 模型给模型构建者带来了重大挑战。随着作业规模的增加,人工干预变得不切实际, 1 MIN READ