AI 平台/部署

抢先体验 NVIDIA GB200 系统如何帮助 LMarena 构建评估 LLM 的模型

在 NVIDIA 和 Nebius 的帮助下,加州大学伯克利分校的 LMArena 可以更轻松地了解哪些大语言模型在特定任务中表现出色。该公司的排名由 Prompt-to-Leaderboard (P2L) 模型提供支持,可从人类那里收集 AI 在数学、编码或创意写作等领域的最佳表现方面的投票。

LMarena 联合创始人、加州大学伯克利分校博士生 Wei-Lin Chiang 表示:“我们捕捉用户在任务中的偏好,并应用 Bradley-Terry 系数来确定哪个模型在每个领域表现最好。过去两年,LMArena (以前称为 LMSys) 一直在开发 P2L。

LMArena 正在使用 NVIDIA DGX 云和 Nebius AI Cloud 大规模部署 P2L。此次合作以及 LMArena 对 NVIDIA GB200 NVL72 的使用,使得在云端开发可扩展的生产就绪型 AI 工作负载成为可能。NVIDIA AI 专家在整个项目期间提供了实操支持,形成了快速反馈和共同学习的周期,帮助完善了 P2L 和 DGX 云平台。

A diagram showing how human-generated rankings train the P2L model to direct traffic to the most effective LLM.
图 1:P2L 如何将提示流量路由到最佳 LLM

P2L 的核心是实时反馈回路:访客会比较 AI 生成的回复并投票选出最佳回复,从而创建详细、针对特定提示的排行榜。从本质上讲,LMArena 利用人类排名来训练 P2L,使其能够在 LLM 查询的结果质量方面确定最佳结果。

LMArena 高级研究员兼伯克利博士生 Evan Frick 表示:“我们想要的不仅仅是一个整体排名。“一个模型可能擅长数学计算,但在写作方面具有中等水平。单个分数通常会隐藏这些细微差别。”

除了个性化排行榜外,P2L 还支持基于成本的路线规划。用户可以设置预算 (例如每小时 $5) ,系统将自动在该限度内选择性能最佳的模型。

LMArena’s P2L ranks models by query cost and selects the best-performing one to perform the desired operation.
图 2:不同模型如何在 LMArena 的 P2L 上按查询成本进行排名

将 P2L 投入生产:LMArena、Nebius 和 NVIDIA

2 月,LMArena 在 NVIDIA GB200 NVL72 上部署了 P2L,由 Nebius 通过 NVIDIA DGX 云托管。NVIDIA 和 Nebius 开发了一个共享沙盒环境来简化入门流程,使早期采用者能够使用编排运行手册和在 NVIDIA GB200 NVL72 新型架构上管理多节点拓扑的最佳实践来测试 NVIDIA Blackwell 平台。

P2L 可以根据特定领域的准确性和成本动态路由查询,这证明是突破 NVIDIA GB200 NVL72 性能极限的理想选择。

Chiang 说:“我们构建了 P2L,这样开发者就不必猜测哪种模型是最好的。”“数据告诉我们哪一项在数学、编码或写作方面更胜一筹。然后,我们会相应地路由查询,有时会考虑成本,有时会考虑性能。”

NVIDIA GB200 NVL72:灵活、可扩展、开发者就绪

NVIDIA GB200 NVL72 集成了 36 个 Grace CPU 和 72 个 Blackwell GPU,并将它们与 NVIDIA NVLink 和 NVLink Switch 连接,以实现高带宽、低延迟的性能。高达 30 TB 的快速、统一的 LPDDR5X 和 HBM3E 内存确保为要求严苛的 AI 任务高效分配资源。

A photo of a single NVIDIA GB200 compute tray, featuring two Arm64 Grace CPUs and four Blackwell GPUs
图 3:一个 NVIDIA GB200 NVL72 计算托盘,包含两个 Arm64 Grace CPU 和四个 Blackwell GPU,LMArena 用于训练其 P2L 模型

LMArena 通过连续训练(首先在单个节点上运行,然后扩展到多个节点)使平台完成了训练,展示了惊人的单节点吞吐量和高效的横向可扩展性。

Chiang 说:“我们谈论的是 multi-node 扩展,但即使是 single node 也让我们很忙。”“最大的挑战是确保 real-time 性能,同时让系统适应不断的数据反馈。但这也是有趣的部分。”

开源支持和生态系统就绪

DGX 云团队与 Nebius 和 LMArena 密切合作,确保面向 GB200 NVL72 的开源开发者能够快速、无缝地进行部署。该团队验证并编译了关键的 AI 框架,包括 PyTorch、DeepSpeed、Hugging Face Transformers、Accelerate、Triton (上游) 、vLLM、xFormers、torchvision 和 llama.cpp,以及适用于 Arm64、CUDA 12.8+ 和 Blackwell 环境的 WAN2.1 视频扩散等新兴模型框架。

这种全面的支持意味着开发者可以利用先进的开源工具,而无需努力解决低级别兼容性或性能问题。工程工作涵盖编译和优化、容器化、编排最佳实践以及大规模运行框架的端到端验证。

NVIDIA DGX 云团队的高级工程师 Paul Abruzzo 表示,该项目需要 NVIDIA、Nebius 和 LMArena 之间进行“深度协调”,以便开发者专注于构建产品,而不是移植开源库和组件。

尽管通过抢先体验计划采用了 GB200 NVL72,但 LMArena 仍然实现了强劲的性能。与之前的 Hopper (H100) 训练相比,它表现出了改进,仅在四天内就训练出了最先进的模型。

“在为 GB200 的新型 Arm 架构构建和移植依赖项之后,DGX 云团队能够为这种参与提供必要的开源框架,从而实现快速部署和规模实验,”Abruzzo 说。

Nebius 首席产品和基础设施官 Andrey Korolenko 表示,此次合作不仅为在 GB200 NVL72 的新型架构上实现 AI 工作负载带来了技术里程碑,还为新一代大规模 AI 提供了可重复的部署模型。经过验证的框架、载入指南和部署蓝图现在使未来的客户能够更轻松地采用 GB200 NVL72,无论是在全机架规模还是更具针对性的子容量配置下。

Chiang 表示:“与 Nebius 和 NVIDIA 的合作从根本上改变了我们快速扩展 P2L 的能力。“GB200 NVL72 的性能使我们能够灵活地进行实验、快速迭代,并提供适应实时用户输入的实时路由模型。因此,我们看到准确性和效率得到了提高。”

要点

此部署展示了 AI 工作负载如何在 NVIDIA GB200 NVL72 平台上快速灵活地进行扩展,为速度、适应性和 Arm64 生态系统就绪性设定了新的基准。

  • 快速实现价值:在 NVIDIA GB200 NVL72 上训练生产规模模型,为期四天。
  • 灵活部署:已验证全结构和子容量用例。
  • 可扩展性证明:单节点到多节点部署展示了在 NVIDIA GB200 NVL72 上轻松实现 AI 工作负载可扩展性。
  • 开源就绪:首次针对合作伙伴基础设施上的 Arm64 + CUDA 编译和优化主要框架。

借助 NVIDIA DGX 云在 Nebius 上体验 NVIDIA GB200 NVL72

为加速您的 AI 创新之旅、降低部署复杂性并利用先进的基础设施,NVIDIA DGX 云和 Nebius AI Cloud 已准备好复制 LMArena 的成功成果。立即联系 NVIDIA,详细了解如何在 GB200 NVL72 上部署工作负载。

详细了解 LMArena 在 NVIDIA DGX Cloud 和 Nebius AI Cloud 上开发的 Prompt-to-Leaderboard (P2L) 系统。

 

标签