Iguazio (被麦肯锡收购) 与 NVIDIA 的合作使企业组织能够构建生产级 AI 解决方案,这些解决方案不仅具有高性能和可扩展性,而且具有敏捷性,可用于现实世界的部署。
NVIDIA NIM 微服务对于这些功能至关重要,旨在加速任何云或数据中心的生成式 AI 部署。NIM 微服务支持各种 AI 模型,包括 NVIDIA AI 基础、社区和自定义模型,支持使用行业标准 API 进行无缝、可扩展的 AI 推理。
在运行时,NIM 会为基础模型、GPU 和系统的任意组合选择最佳推理引擎。NIM 容器还提供标准的可观察性数据源,并内置支持在 NVIDIA GPU 上使用 Kubernetes 进行自动扩展。
MLRun 是一个开源 AI 编排框架,可自动执行整个 AI 工作流,支持在生产环境中部署 NIM。这包括企业级生产就绪型应用所需的所有工作流元素,包括
- 批量和实时数据pipelines
- CI/CD 自动化
- 自动跟踪数据沿袭
- 实验跟踪、自动记录和模型注册表
- 分布式数据处理
- 模型训练和服务
- 模型监控
- 用于优化资源的 Auto-scaling 和 Serverless 架构
- 安全性
MLRun 和 NVIDIA NIM 共同提供了一个解决方案,用于部署具有优化性能和编排功能的 AI 应用。
什么是 MLRun?
MLRun 是一个开源 AI 编排框架,旨在管理 ML 和生成式 AI 应用的整个生命周期。Iguazio 现隶属于 McKinsey & Company 的 AI 部门 QuantumBlack,负责构建和维护开源框架。
它可通过弹性资源实现 ML 模型、大语言模型 (LLM) 和实时 AI 应用的数据准备、模型调优、定制、验证和优化等流程的自动化。MLRun 支持快速部署可扩展的实时服务和应用程序管道,提供内置的可观察性和灵活的部署选项,支持多云、混合和本地环境。
企业使用 MLRun 实时大规模开发 AI 模型,在基础设施中部署这些模型,降低与生成式 AI 相关的风险,并在任何环境 (多云、本地或混合) 中安全可靠地推动 AI 驱动的策略。
该框架用于许多用例,包括实时 agent copilots、呼叫中心分析、聊天机器人自动化、欺诈预测、实时推荐引擎和预测性维护。

使用 MLRun 和 NVIDIA NIM 部署多智能体金融聊天机器人
一家大型银行最近使用 MLRun 构建了多智能体聊天机器人,该机器人采用意图分类、实时监控和动态资源扩展。此用例展示了金融机构如何利用 NVIDIA NIM 推理效率和 MLRun 生产级监督来部署 AI 助手,以提高运营效率并遵守法规。在此演示中,我们展示了该解决方案如何利用 MLRun 实时监控 NVIDIA NIM。
完整的聊天机器人架构使用为银行服务定制的三个不同的 AI 智能体。贷款代理负责处理与抵押贷款和贷款相关的查询,例如解释特定抵押贷款条款的利率。该投资代理提供个性化的投资组合建议,分析可再生能源股票投资等场景。一般代理管理常规的客户服务任务,包括密码重置或交易历史请求,同时还将复杂的查询转交给相应的专家。这些智能体通过由 LLM 提供支持的查询分类系统运行,该系统根据意图路由请求,并通过会话日志记录来确保合规性,以及用于独立更新的模块化设计,而不会中断整个系统。
在质量控制方面,该实施使用 LLM-as-a-Judge 机制来实时监控交互。该评估器通过评估查询代理相关性、响应准确性和监管合规性来验证路由决策。它记录对话以进行审核和微调,同时生成性能指标,例如错误分类率、响应质量分数和合规性违规计数。MLRun 通过自动评估流程、显示实时指标的控制面板以及因监管漏洞等重大错误而触发的警报系统来实施这种监控。
此解决方案的成功在于其能够将先进的 AI 技术与操作简便性相集成。通过利用 NVIDIA NIM 容器并将其与 MLRun 编排框架相结合,该平台可确保 AI 模型兼具高性能和高效率。
以下是它的工作原理:
- 无服务器:MLRun 将实例包装在无服务器函数中,并使用 NIM 容器镜像配置函数,从而简化 NIM 部署。这支持按需扩展弹性、监控、安全性和操作的其他方面。用户只需单击一下,即可将 LLM NIM 微服务部署为无服务器功能。
- LLM 网关:统一的界面使 LLM 之间的切换快速直观。网关支持不同级别的监控:特定用例、特定模型、通用 LLM 提供商,以及用于延迟、吞吐量和内存等一般使用情况监控的更高级别的。所有操作均通过使用标签完成。

- 高效的 GPU 利用率:确保 GPU 上的最佳模型效率,同时编排根据需求动态分配资源,以更大限度地提高效率。
- 可扩展性:通过支持弹性扩展,多个容器跨集群运行,从而实现水平扩展、并行,并根据需求调整资源分配。该系统可在本地 Kubernetes 集群、NVIDIA DGX 平台以及 AWS、Azure 和 Google Cloud 等主要云提供商上无缝运行。
- 全面的 MLOps 集成:MLRun 可为 AI 工作流提供全栈监控,包括实验跟踪、版本控制和操作指标 (例如模型注册表、自动化流程和实时遥测) ,从而实现从模型开发到生产的平稳过渡。NVIDIA NIM 支持以 OpenTelemetry 兼容的格式导出指标和追踪。MLRun 平台使用实时监控资源使用、计费计量、道德和负责任的实践、模型性能、业务指标、审核和日志记录来集成这些指标
- 使用特定于案例的优化:无论是部署聊天机器人、构建推荐引擎,还是提供预测分析服务,用户都可以根据自己的特定需求定制 AI 工作流。该解决方案提供了蓝图和现成的组件来简化流程。用户可以按需为不同的用例配置不同的模型,从而降低成本并进行更好的性能调整
- 隐私保护:MLRun 为企业级本地模型托管的 NVIDIA NIM 部署提供便利。对于金融服务、电子商务、医疗健康和制造等高度监管的行业而言,这种关键能力需要生成式 AI 集成,同时保持严格的数据隐私、安全和合规性标准。
结论
MLRun 和 NVIDIA NIM 将优化的推理与强大的运营监督相结合,为企业 AI 部署带来了强大的协同作用。NVIDIA NIM 提供 GPU 加速的容器化微服务,用于跨环境的高性能模型执行,而 MLRun 则提供自动编排、安全 API 管理、实时监控等。它们共同解决了关键的生产挑战,使企业能够部署具有先进功能和操作可靠性的可扩展 AI 助手。
如要继续,请试用 MLRun 和 NIM,并详细了解 MLRun 中的部署和模型监控功能。观看 Iguazio 的 MLOps Live 系列MLOps Live 系列录像,观看现场演示和进一步的技术说明。
如需详细了解 NVIDIA 如何支持 AI 初创公司,请访问 Inception 程序网页。