数据中心/云端

NVIDIA 借助 NVIDIA DGX SuperPOD 加快 AI 工厂建设速度

在日本一个秘密地点的洞穴状房间里,一场数字革命正在展开。服务器机架像巨人一样立着,它们的光滑框架由数千条电缆连接,充满了潜力。

直到去年,这个庞大的 AI 工厂还不存在。现在,它将巩固 SoftBank Corporation 的 AI 驱动创新愿景,这一愿景植根于创建一个与 AI 共存的社会,使用先进的基础设施推动进步。

对于 SoftBank 而言,每天缩短部署时间,不仅仅是一场技术上的胜利。相反,它具有各种竞争优势。在 AI 超级计算飞速发展的世界中,速度就是一切。

日本领先的科技巨头之一软银集团与 NVIDIA 合作打造了这一系统。他们共同构建了两个世界上最先进的计算集群 —— 集群能够以创纪录的速度处理大量数据,并加速由软银子公司 SB Intuitions 开发的大语言模型(LLM)的开发。

但是,创建 AI 工厂不仅仅是插入硬件。这是一项精心设计的工作,每个线缆、接口和组件都必须完美对齐。这就是 NVIDIA 基础设施专家 (NVIDIA Infrastructure Specialists, NVIS) 的用武之地。NVIS 是一个专家团队,能够准确、高效地加速 AI 部署。借助经过验证的剧本,NVIS 使客户能够在创纪录的时间内将 bare metal 转变为生产就绪型 AI 基础架构。

加速协作

当 SoftBank 要求提供加速时间表时,NVIDIA 已准备好帮助将雄心勃勃的目标变为现实。尽管 SoftBank 在大规模 AI 平台方面的经验有限,但其敏捷性与 NVIDIA 的专业知识和参考架构相结合,确保了成功。

SoftBank 的 NVIDIA DGX SuperPOD 部署经过精确编排。每个步骤都与里程碑和时间线有关,项目分为两个集群,以帮助管理进度。

当 SoftBank 要求在最初计划的运营日期前 10 天提前完成时,NVIS 重新调整,以遵守新的截止日期。这种敏捷响应需要细致的资源管理、精准的物流和日常协调。

这些数字说明了一切。数千条线缆和数百台网络交换机互联 510 台 NVIDIA DGX B200 系统 即作为 DGX SuperPOD 核心的强大计算节点。这两个集群都提供了出色的 FP64 精度性能:一个达到 89.78 gigaflops,另一个达到 91.94 gigaflops,这衡量了它们每秒处理大量数据的能力。“在这些 DGX SuperPOD 集群中部署 510 个 NVIDIA DGX 系统的精度和速度凸显了在专业知识和协作保持一致时的可能性,”SoftBank 数据平台战略副总裁兼技术部门主管 Hironobu Tamba 说。这种基础设施不仅速度快,还为日本的 AI 开发树立了新的标准

软银集团拥有日本最大的 AI 计算基础设施,现已成为日本 AI 生态系统的领导者。

凭借精度和敏捷性克服挑战

当然,这种规模的项目在开展时都会遇到重重障碍。在 SoftBank Corp. 的案例中,有限的电力供应要求 NVIS 在业余时间进行一些测试。当网络组件导致出现连接问题时,团队找到了一种创造性的解决方案,重新利用第二个集群的各个部分,使第一个集群保持如期运行。

NVIDIA 团队精心跟踪并实时解决了每一个挑战,确保部署如期进行。

“这不仅仅是一项工作,”一位团队成员表示。“这更像是一个同步工作的 Formula 1 pit crew,我们每个人都知道,我们每天节省的时间对 SoftBank 来说意味着更多的价值。”

开创日本的 AI 未来

软银集团的部署不仅仅是一项技术成就。这是朝着构建新一代社交基础设施迈出的一步,对于加速 LLM 开发等内部项目以及在日本各地建立更广泛的生成式 AI 开发者生态系统至关重要。

投入运营后,该平台还将服务于外部公司,为日本国内 AI 能力的发展做出贡献。Tamba 说:“SoftBank Corp.’s AI 工厂是日本的一次飞跃,加速了创新,使日本的 AI 生态系统蓬勃发展。”

NVIS playbook:速度、准确性和协作

软银集团的部署展示了 NVIS 手册,这是一种快速精确地管理大型 AI 项目的简化方法。借助 NVIS,NVIDIA 每天可以安装数千个 GPU,将大型 AI 中心转变为高效的 AI 工厂。

软银集团 DGX SuperPOD 的核心是 NVIDIA Quantum-2 InfiniBand 网络平台,旨在处理海量数据负载,而不会出现瓶颈。这种网络技术与 NVIDIA Air 的数字孪生功能相结合 (NVIDIA Air 是数据中心的虚拟复制品,可进行部署前测试和验证),确保了项目从规划到执行的顺利进行。

首席执行官数学:为什么速度很重要

对于采用 NVIDIA 技术的公司而言,速度不仅仅是技术层面,更是战略层面。其新 AI 工厂越快上线,就能越快获得见解、简化运营并推出新的 AI 驱动产品。

NVIDIA 的内部分析表明,如果将安装时间从典型的 6 个多月缩短到仅仅三周,客户可以避免因大型 AI 系统长时间部署而产生高达 $150M 的成本。这一估算基于大规模部署的运营成本,据 NVIDIA 计算,配备 8K GPU 的 1K 服务器数据中心的运营成本约为每天 $1M。

更快的部署还使客户能够通过运行 LLM 等工作负载而无延迟地更快地创收。NVIS 额外释放的每一天操作都意味着避免了 $1M 的费用,并抓住了因停机而损失的收入机会。

借助 DGX SuperPOD 加快构建速度

借助 NVIDIA 基础设施专家 (NVIDIA NVIS) 加速 DGX SuperPOD 部署,并将首次训练时间缩短至标准时间的一小部分。有关更多信息,请参阅 AI 基础设施服务 | NVIDIA NVIS

标签