这是 LLM 基准测试系列的第一篇文章,介绍了在使用 NVIDIA NIM 部署 Meta Llama 3 模型时,如何使用 GenAI-Perf 进行基准测试。
来自伦敦大学学院 (UCL) 决策、行动和推理知识 (DARK) 实验室的研究人员在其全新的基于游戏的基准测试套件 Benchmarking Agentic LLM 和 VLM Reasoning On Games (BALROG) 中利用了 NVIDIA NIM 微服务。BALROG 经过专门设计,可使用各种游戏环境评估模型在具有挑战性的长距交互式任务中的代理能力。
来自 DARK Lab 的团队利用 NVIDIA NIM 简化了详尽的基准测试流程。在 DeepSeek-R1 NIM 发布时 ( 2025 年 2 月底) ,他们能够使用 DeepSeek-R1,这是一个包含 671 亿个参数的大型模型。这种方法加快了他们的工作速度,因为他们不必先在本地部署和托管模型。
本文将探讨 NVIDIA NIM 如何使用 BALROG 实现高级 AI 模型的高效基准测试。我们分享了有关基准测试过程、关键结果以及 NIM 微服务如何在先进的 AI 系统中推进 代理式 AI 推理的评估的见解。
适用于 DeepSeek-R1 的 NVIDIA NIM
NVIDIA NIM 微服务正在快速重新定义研究人员和开发者部署和扩展 AI 模型的方式,提供了一种利用 GPU 强大功能的简化方法。这些微服务通过提供预优化引擎 (例如 NVIDIA TensorRT 和 NVIDIA TensorRT-LLM ) 来简化 AI 推理工作负载的运行过程,从而提供低延迟、高吞吐量的性能。
NIM 微服务的灵活性让研究人员特别兴奋。它们可以部署在云平台、数据中心甚至本地工作站中,从而无缝集成到不同的工作流程中。借助对基于 Kubernetes 的扩展的支持,研究人员可以高效处理从小型实验到大规模部署等各种规模的工作负载。
NIM 微服务还使用户能够安全地自行托管模型,并根据特定需求对其进行自定义,使其成为自然语言处理、计算机视觉和科学研究等应用的通用解决方案。此外,NIM 可部署在国家超级计算中心,使研究人员能够利用高性能基础设施处理大规模 AI 工作负载,并对私有或敏感数据进行安全研究。
这些微服务可与 OpenAI API 或 Python 环境 LangChain 等标准前端轻松快速地进行 API 集成。还可以访问 Node.js 和命令行。这使研究人员能够高效运行先进的大型开源 大语言模型 (LLMs) ,即使资源有限。
随着 2025 年 1 月 DeepSeek-R1 的发布,NVIDIA 为各种 DeepSeek 模型提供了即用型 NIM 微服务。这使伦敦大学学院的研究人员能够立即通过 build.nvidia.com 评估具有 6710 亿个参数的最大变体。DeepSeek-R1 因其先进的推理能力和应对长期挑战的可能性,被认为是使用 BALROG 进行基准测试的理想候选者。
BALROG 方法论
虽然 LLM 和 视觉语言模型 (VLM) 在处理信息和遵循指令方面取得了显著进展,但它们在复杂、动态情况下有效行动的能力仍然是一个关键挑战。需要持续规划、空间感知和适应不可预见环境的任务通常会超出其现有能力。
许多现有基准测试虽然有用,但往往侧重于较短的交互或静态问题。这可能会导致结果迅速饱和和测试数据泄露,并且可能无法像长期决策一样,完全掌握强大的现实机构所需的基本技能。BALROG 基准测试套件专为满足对更严苛的评估方法日益增长的需求而开发,该方法可使用游戏真正测试 AI 能力,以扩展推理和交互。
BALROG 将六个不同的强化学习环境聚合到一个统一的测试平台中,评估不同复杂性的代理技能 (图 1):
- Crafter: 灵感源自“Minecraft”的 2D 网格环境,需要进行探索、资源收集和物品制作才能生存。
- Baba Is AI:一款益智游戏,agents 通过操作表示规则的词块来改变物体的交互方式并解决谜题。
- NetHack 学习环境 (NLE) :经典 Roguelike 游戏,以极其困难和复杂而闻名,需要长期战略计划和短期战术。
- MiniHack :基于 NLE 构建的多任务框架,可通过各种任务评估勘探、导航、长期规划和资源管理。
- BabyAI :一种简单的 2D 网格世界测试自然语言指令,适用于不同复杂性的任务。
- TextWorld:一款完全基于文本的游戏,需要探索和自然语言交互,没有视觉组件。

为了确保模型真正进行推理和适应,而不是简单地依赖记忆模式,我们使用了跨环境的程序生成。BALROG 提供标准化框架,旨在严格评估大量不同的模型在这些要求严苛的任务中的表现。这将开发导向更强大、更自主的 AI 智能体。
BALROG 结果
BALROG 的目标是通过在 排行榜 上跟踪各种现代语言模型来对其进行基准测试。智能体以自然语言描述或多模态视觉语言格式接收环境观察,并负责以自然语言输出下一个动作。像 DeepSeek-R1 这样经过专门训练的推理模型可以在输出动作之前进行推理。
BALROG 对从 0 到 100 的每项任务使用标准化指标评分性能。对于具有离散目标的环境 (BabyAI、Baba Is AI、MiniHack),分数是二进制的 (失败为 0,成功为 100)。对于进展更为精细的环境 (TextWorld、Crafter、NetHack),分数表示已实现目标或已达到里程碑的比例。
BALROG 的研究人员通过支持无缝交换机的 OpenAI API 评估了 DeepSeek-R1 NIM。他们的评估显示,DeepSeek-R1 在 BALROG 上实现了新的先进性能,平均进度为 34.9% ± 2.1%,较上一代领先者 Claude 3.5 Sonnet 32.6% ± 1.9% 略胜一筹。这使得该模型在撰写本文时处于排行榜榜首。得益于 NIM 与标准 API 的无缝集成,可以轻松查询 DeepSeek-R1。对于大多数学术研究人员来说,由于完整模型的庞大规模,这是一项几乎不可能实现的壮举。
与各种其他模型相比,对 API 成本进展情况的进一步分析表明,DeepSeek R1 如何通过 NVIDIA NIM 以更低的成本提供非常高的性能(图 2)。

总结
NVIDIA NIM 减少了访问和使用现代 LLM 和 VLM 的工作量。各种可用的 API 可以轻松地将它们集成到现有环境中,例如 BLAROG。此外,如果计算资源可用,NIM 微服务可以立即在云端远程使用或本地部署。由于基于云的使用,DARK 实验室的研究人员无需在本地部署模型。相反,他们可以立即使用最新的、最大的、最先进的模型之一。
如需详细了解 BALROG 方法,请参阅 ICLR 2025 论文: BALROG:Benchmarking Agentic LLM 和 VLM Reasoning On Games 。研究人员还计划对以 NIM 微服务形式提供的 NVIDIA Llama Nemotron Ultra 和 Llama 4 模型进行基准测试。
要开始使用 NVIDIA NIM ,使用行业标准 API 部署、评估和扩展先进的 AI 模型,请访问面向开发者的 NVIDIA NIM。