网络

使用 NVIDIA UFM Cyber AI 安全智能地管理数据中心

今天的数据中心承载着许多用户和各种各样的应用程序。它们甚至已经成为研究、技术和全球产业竞争优势的关键要素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了安全威胁造成的运营中断之外,保持数据中心完好无损并平稳运行也至关重要。

如今的数据中心承载着许多用户和各种应用,它们甚至已经成为科研、技术和全球产业竞争优势的关键因素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了要防止运营安全隐患的干扰外,保持数据中心的完整和平滑运行也至关重要。

更重要的是,恶意用户可能会利用数据中心的访问权限,运行被禁止的应用,滥用计算资源,进而导致意外停机以及更高的运营成本。对于今天的IT经理和支持开发者而言,能够快速识别问题并提高效率的数据中心管理工具比以往任何时候都更加重要。

NVIDIA以惊人图形处理能力和出色GPU计算性能而闻名,广泛应用于各个研究领域。同时,多年来NVIDIA也一直是安全和可扩展数据中心技术的领导者,提供了各种灵活的库和工具,来最大程度地优化业界一流的基础设施。

NVIDIA认识到,要为当今研究和商业领域最关键的组成部分提供全栈式解决方案,其中不仅包括提供一流的服务器平台、GPU以及部署在整个数据中心的丰富软件组合,而且还需要关注到安全和可管理性是建立数据中心基础设施的关键支柱。

此外,恶意用户可能会利用数据中心访问权限,通过运行被禁止的应用程序来滥用计算资源,从而导致意外的停机时间和更高的操作成本。 数据中心管理工具比以往任何时候都更能快速发现问题,同时提高效率,是当今 IT 经理和支持它们的开发人员的首要任务。

NVIDIA 最著名的可能是惊人的图形功能和无与伦比的 GPU 计算性能,几乎应用于所有研究领域。然而,多年来,它还是安全和可扩展数据中心技术的领导者,包括灵活的库和工具,以最大限度地利用世界一流的基础设施。

NVIDIA 认识到,为 MIG 这一当今研究和业务中最关键的组成部分提供全套解决方案,不仅包括世界一流的服务器平台,而部署在整个数据中心的最广泛的软件组合。 NVIDIA 也知道,安全性和可管理性是构建数据中心基础设施的关键支柱。

NVIDIA UFM 网络 AI 彻底改变了 InfiniBand 数据中心

NVIDIA Unified Fabric Manager ( UFM )网络 AI 平台提供增强的实时网络遥测,结合 AI 提供的智能和高级分析。它使 It 经理能够发现操作异常,甚至预测网络故障。这提高了安全性和数据中心正常运行时间,同时降低了总体运营开支。

UFM 网络人工智能的独特优势在于它能够捕获丰富的遥测信息,并利用人工智能技术来识别事件之间隐藏的相关性。这使它能够检测异常的系统和应用程序行为,甚至在性能下降导致组件或系统故障之前识别它们。 UFM 网络 AI 甚至可以实时采取纠正措施。该平台学习数据中心的典型操作模式,并基于网络遥测数据检测异常使用,包括流量模式、温度等。

UFM 网络人工智能基础

UFM 网络 AI 包含三个不同的层,如图 1 所示。

UFM Cyber-AI contains three layers: Input telemetry, processing models, and output dashboard.
图 1 . UFM 网络 AI 层
  • 输入遥测: 通过各种方式收集信息并从网络中学习:
    • 网络中所有元件的遥测
    • 网络拓扑(租户或应用程序的连接和资源分配)
    • 网络设备的特点和能力
  • 处理模型: 包含几个模型,例如用于数据准备的提取、转换和加载( ETL )处理引擎。它还包含聚合、数据存储和用于比较的分析模型。 UFM 网络人工智能使用机器学习( ML )技术和人工智能模型进行异常检测和预测,以学习数据中心网络组件(电缆、交换机、端口、 InfiniBand 适配器)的生命周期模式。
  • 输出仪表板: 一个可视化层,它为网络管理员和云编排器提供一个中央仪表板,以查看有关提高网络利用率和效率以及解决网络健康问题的警报和建议。仪表板提供了两个主要类别: 可疑行为链接分析 ,每个类别都包括警报和预测部分(图 2 )。
Dashboard shows the Suspicious Behavior and Link Analysis categories, with example alerts and predictions.
图 2 . UFM 网络人工智能预测仪表盘

功能丰富、直观且可定制的 fabric manager

UFM 网络人工智能还支持定制的网络警报或查看触发的异常随着时间的推移和在不同的时间维度。通过使用基于小时或星期几参数的聚合网络统计信息,您可以根据 MIG ht 偏离典型操作用途的测量值设置阈值和配置通知。例如,可以使用预定义的阈值来识别有问题的电缆。

内置分析将当前遥测信息与基于时间的聚合信息进行比较,以检测使用或流量模式中的任何可疑增加或减少,并立即通知系统管理员。 UFM-cyberai 还通过链路或端口遥测信息提供数据中心租户或应用程序警报,以识别与低级别分区密钥( PKEY )相关的统计信息及其相关节点。

只有 UFM 网络人工智能提供了链接故障预测等功能,支持预测性维护。通过在早期阶段检测性能下降情况, UFM 网络人工智能可以预测潜在的链路或端口故障。这使管理员能够执行维护并消除数据中心停机时间。

NVIDIA Morpheus 的未来增强功能

为 InfiniBand 带来最强大的结构管理解决方案需要不断创新,以跟上管理当今复杂数据中心的复杂性。我们计划将 NVIDIA Morpheus 与 UFM Cyber AI 集成(图 3 ),从其他数据中心元素(如服务器或基于机架的组件遥测或 DPU 、 GPU 和应用程序计数器)带来更多遥测信息。

我们甚至可以提供一个额外的层,它可以直接与其他 api 接口,比如 Kafka ,一个用于高性能数据管道、流分析和数据集成的开源分布式事件流平台。您可以使用该集成对开发人员定义的操作系统异常进行特定的检测,例如对生命科学研究专用系统的加密挖掘检测。

Diagram shows how UFM Cyber-AI integrates with Morpheus to provide enhanced network traffic visibility for improved security.
图 3 . UFM 网络人工智能与 Morpheus 框架的集成示例

Morpheus 是一个开放的人工智能应用框架,为网络安全开发者提供高度优化的人工智能管道和预训练的人工智能能力。这些功能使您能够通过数据中心结构即时检查所有网络流量。 Morpheus 通过提供以下功能为数据中心带来了新的安全级别:

  • 动态保护
  • 实时遥测
  • 适应性策略
  • 用于检测和修复网络安全威胁的网络防御
Diagram shows potential interfaces to standardized APIs, such as Kafka, RAPIDS, and PyTorch.
图 4 . UFM 网络人工智能作为灵活和可扩展平台的示例

随着 Morpheus 集成到 UFM Cyber AI 设备中,我们可以为关键任务数据中心和支持开发人员提供最佳和最完整的解决方案,该解决方案也具有灵活性和可扩展性。通过可定制的异常检测和与其他标准化 API 的接口, UFM Cyber AI 是任何支持多租户的数据中心或云本地基础设施的灵活资产。

更多信息,敬请访问 NVIDIA 统一结构管理器

 

Tags