网络流量的实时处理可以通过高并行度 GPU 来利用。在这些类型的应用程序中优化数据包获取或传输可以避免瓶颈,并使整体执行能够跟上高速网络的步伐。在这种情况下, DOCA GPU NetIO 将 GPU 提升为一个独立的组件,可以在没有 CPU 干预的情况下执行网络和计算任务。
这篇文章提供了一个 GPU 分组处理应用程序的列表,重点关注不同和不相关的上下文。其中,NVIDIA DOCA GPUNetIO已被集成,以降低延迟并最大限度地提高性能。
NVIDIA DOCA GPUNetIO API
NVIDIA DOCA software framework中的 NVIDIA DOCA GPUNetIO 是 DOCA CUDA NetIO 库,它通过一个或多个 GPU 内核实现 NIC 和 GPU 之间的直接通信,从而从关键路径中移除 CPU。
使用 GPU DOCA NetIO 库中的 CUDA 设备函数, CUDA kernel 可以直接向 GPU 发送和接收数据包,而无需 CPU 内核或内存。此库的主要功能包括:
- GPUDirect 异步内核启动的网络(GDAKIN):这是一种以太网通信方式,其中 GPU(CUDA 内核)可以直接与网卡交互,无需 CPU 干预,可以在 GPU memory(GPU Direct RDMA)中发送或接收数据包。
- GPU 内存暴露:结合基本的 CUDA 内存分配功能和 GDRCopy 库,在单个函数中将 GPU 内存缓冲区公开给 CPU 直接访问(读或写),无需使用 CUDA API。
- 精确的发送计划:根据 GPU 的需求,可以安排未来数据包的突发传输,将时间戳与之关联,并将此信息提供给网卡。网卡将负责在正确的时间发送数据包。
- 信号量:这是一种有用的消息传递对象,用于在不同的 CUDA 内核之间,或者在 CUDA 内核和 CPU 线程之间共享信息和进行同步。
如果您想深入了解 DOCA GPUNetIO 的原理和优点,请参阅NVIDIA DOCA GPUNetIO 的内联 GPU 数据包处理。如需获取 DOCA GPUNetIO API 的更多详细信息,请参阅DOCA GPUNetIO SDK 编程指南。
除了该库之外,以下 NVIDIA DOCA 应用程序和 NVIDIA ZFK7 示例还展示了如何使用该库提供的功能和特性。
- NVIDIA DOCA application 是一个 GPU 数据包处理应用程序,能够检测、管理、过滤和分析 UDP 、 TCP 和 ICMP 流量。此应用程序还实现了 HTTP over TCP 服务器。使用简单的 HTTP 客户端(例如 curl 或 wget ),可以建立 TCP 三方握手连接,并通过对 GPU 的 HTTP GET 请求来请求简单的 HTML 页面。
- NVIDIA DOCA 示例:这是一个仅 GPU 发送的示例,展示了如何使用“精确发送调度”功能(包括系统配置、功能使用等)。
DOCA GPUNetIO 在现实世界中的应用
DOCA GPUNetIO 已被用于 NVIDIA Aerial SDK,用于使用 GPU 进行发送和接收,从而无需 CPU。想要了解更多详细信息,请参阅 NVIDIA DOCA GPUNetIO 的内联 GPU 数据包处理。下面的部分提供了成功使用 DOCA GPU NetIO 利用 GDAKIN 技术进行 GPU 分组获取的新示例。
NVIDIA
NVIDIA Morpheus 是一个面向性能的应用程序框架,它使网络安全开发人员能够创建完全优化的人工智能管道,用于过滤、处理和分类大量实时数据。该框架通过一个由 GPU 和 C ++ API 组成的可访问编程模型,来抽象 GPU 和 Python 的并行性和并发性。
利用这个框架,开发人员可以快速构建由阶段组成的任意数据管道,这些阶段为下游消费者获取、变异或发布数据。您可以在不同的环境中应用 Morpheus ,包括恶意软件检测、网络钓鱼/鱼叉式网络钓鱼检测、勒索软件检测等。它的灵活性和高性能是实时网络流量分析的理想选择。
NVIDIA Morpheus 团队最近针对网络监控用例,集成了 DOCA 框架,以实现高速、低延迟的 GPU 数据包获取源阶段,并将实时数据包馈送到负责分析数据包内容的 AI 管道。欲了解更多详细信息,请访问GitHub 上的 Morpheus。
如图 2 所示, GPU 数据包捕获是实时发生的。通过 DOCA Flow ,流引导规则应用于以太网接收队列,这意味着队列只能接收特定类型的数据包(例如 TCP )。 Morpheus 启动 CUDA 内核,该内核在循环中执行以下步骤:
- 使用 DOCA GPUNetIO 接收功能接收数据包
- 过滤和分析 GPU 存储器中的并行数据包
- 复制 GPU 内存缓冲区列表中的相关数据包信息
- 当缓冲器已经累积了足够的信息包时,相关的 DOCA GPUNetIO 信号量项被设置为 READY
- AI 管道前面的 CUDA 内核正在轮询信号量项
- 当项目为 READY 时,由于缓冲区中的数据包信息已准备就绪, AI 被解除阻塞
GTC 会议中的边缘网络的防御性网络操作 (DCO)提供了一个具体的例子,展示了如何使用该架构部署一个高性能的、支持人工智能的 SPAN /网络 TAP 解决方案。这个解决方案的动机是应对信息技术( IT )和操作技术( OT )网络中的高数据速率、第 7 层应用程序数据的异构性,以及边缘计算的大小、重量和功率( SWaP )限制。
在边缘计算的情况下,当计算需求增加时,许多组织无法“突然上云”,尤其是在断开连接的边缘网络上。这个场景需要为 I / O 和计算挑战设计一个架构,以提供跨 SWaP 频谱的性能。
这个 DCO 示例通过一个常见的网络安全问题来解决这些限制,识别未加密 TCP 流量中的泄露数据(例如,泄露的密码、密钥和 PII ),并代表了 Morpheus SID 演示的扩展。识别和修复这些漏洞可以减少攻击面,提高组织的安全态势。
在该示例中, DCO 解决方案将数据包接收到异构 Morpheus 管道( GPU 和以 Python 和 C ++的混合形式编写的并发 CPU 阶段)中,该管道应用 transformer 模型来检测第 7 层应用数据中泄漏的敏感数据。它将输出与 ELK 堆栈集成,包括安全操作中心( SOC )分析师可利用的直观可视化(图 3 和图 4 )。
实验设置包括在具有 100 Gbps 的虚拟机上运行的云原生 UDP 多播和 REST 应用程序,这些应用程序通过NVIDIA BlueField-2 DPU和 SWaP 高效通信NVIDIA Spectrum SN2100 Ethernet switch数据包生成器将敏感数据注入到由这些应用程序传输的数据包中。网络数据包被聚合并镜像到 NVIDIA Spectrum SN2100 上的 SPAN 端口,然后发送到 NVIDIA A30X汇聚加速器为 Morpheus 数据包检查管道提供动力,实现了令人印象深刻的吞吐量结果。
- 该管道包括在第三方 SIEM 平台( Elasticsearch )中进行 I / O 、数据包过滤、数据包处理和索引的几个组件。 DOCA GPUNetIO 主要关注 I / O 方面,使得 Morpheus 能够通过单一接收队列,以高达 100 Gbps 的速度将数据包接收到 GPU 内存中,从而消除了网络数据包处理应用程序中的一个关键瓶颈。
- 利用阶段级并发,该管道显示 Elasticsearch 索引吞吐量提高了 60% 。
- 在 NVIDIA A30X 聚合加速器上运行端到端数据管道生成的丰富数据包的容量约为弹性搜索索引器的 50% 。使用两倍数量的 A30X 将使索引器完全饱和,从而提供一种方便的缩放启发式方法。
虽然这个用例演示了 Morpheus 的特定应用程序,但它代表了网络数据包处理应用程序的基本组件。 Morpheus 加上 DOCA GPUNetIO 共同为大量延迟敏感和计算密集型数据包处理应用程序提供了性能和可扩展性。
线速率雷达信号处理
本节介绍了一个示例,在该示例中,雷达检测应用程序以 100Gbps 的线路速率从模拟的仅测距雷达系统接收下变频的 I / Q 样本,执行将接收到的 I / Q RF 样本实时转换为目标检测所需的所有信号处理。
雷达、激光雷达和光学平台等遥感应用依赖于信号处理算法,将从测量环境中收集的原始数据转化为可操作的信息。这些算法通常具有很高的并行性,并且需要很高的计算负载,这使得它们非常适合基于 GPU 的处理。
此外,输入传感器会生成大量的原始数据,这意味着处理解决方案的入口/出口能力必须能够在低延迟下处理非常高的带宽。
使问题进一步复杂化的是,许多基于边缘的传感器系统具有严格的 SWaP 约束,限制了可能用于其他高通量网络方法(如基于 DPDK 的 GPUDirect RDMA )的可用 CPU 核心的数量和功率。
DOCA GPUNetIO 使 GPU 能够直接处理网络负载以及使实时传感器流应用程序成功所需的信号处理。
常用的信号处理算法被用于雷达探测应用中。图 6 中的流程图显示了用于将 I / Q 样本转换为检测的信号处理管道的图形表示。
MTI 滤波是一种在雷达系统中常用的技术,用于消除反射的 RF 波形中的静止背景杂波(如地面或建筑物)。这里使用的方法被称为Three-Pulse Canceler,它是在脉冲维度上的 I / Q 数据与滤波器系数 ‘+1,-2,+1’ 的卷积。
脉冲压缩使接收波形相对于目标存在的信噪比( SNR )最大化。它是通过计算接收到的 RF 数据与发射波形的互相关来执行的。
恒定假 Al Arm 率( CFAR )检测器计算噪声的经验估计,该噪声被定位于滤波数据的每个范围仓。然后将每个仓的功率与噪声进行比较,并在给定噪声估计和分布的情况下,如果在统计上有可能,则宣布为检测。
大小为(#波形) x (#信道) x (# Samples )的 3D 缓冲器用于保持正在接收的组织 RF 数据(注意,在分组接收时应用 MTI 滤波器将脉冲维度的大小减小到 1 )。假设 UDP 数据流没有排序,只是它大致按照数据包的波形 ID 升序进行流传输。每个数据包传输大约 500 个复杂样本,样本在 3D 缓冲区中的位置取决于波形 ID 、通道 ID 和样本索引。
此应用程序持久运行两个 CUDA 内核和一个 CPU 内核。第一个 CUDA 内核负责使用 DOCA GPUNetIO API 将数据包从 NIC 读取到 GPU 。第二个 CUDA 内核基于数据包头部中的元数据将数据包数据放入正确的内存位置,并应用 MTI 过滤器, CPU 内核负责启动处理脉冲压缩和 CFAR 的 CUDA 内核。使用 cuFFT 库进行 FFT 。
图 7 显示了应用程序的图形表示。
雷达探测管线的吞吐量> 100 Gbps 。以 100 Gbps 的线路速率运行 100 万个 16 通道波形,没有丢弃任何数据包,信号处理从未落后于数据流的吞吐量。从接收到独立波形 ID 的最后一个数据包开始测量的延迟大约为 3 毫秒。使用 NVIDIA ConnectX-6 Dx SmartNIC 和 NVIDIA A100 80 GB GPU 。数据是通过以太网上的 UDP 数据包发送的。
未来的工作将评估该架构在具有集成 DPU 的 BlueField DPU 上独家运行时的性能。
GPU 上的实时 DSP 服务
模拟信号无处不在,既有人工信号(例如 Wi-Fi 无线电),也有自然信号(例如太阳辐射和地震)。为了以数字方式捕获模拟数据,声波必须使用 D-a 转换器进行转换,该转换器由采样率和采样位深度等参数控制。数字音频和视频可以使用 FFT 进行处理,使声音设计师能够使用均衡器( EQ )等工具来改变信号的一般特性。
此示例说明了 NVIDIA 产品和 SDK 是如何通过网络使用 GPU 执行实时音频 DSP 的。为此,该团队构建了一个客户端,该客户端解析 WAV 文件,将数据帧化成多个以太网数据包,并通过网络将其发送到服务器应用程序。该应用程序负责接收数据包、应用 FFT 、操纵音频信号,并最终发回修改后的数据。
客户的责任是识别哪个部分应该发送到信号处理链的“服务器”,以及在从服务器接收到处理后的样本时如何处理。这种方法支持多种 DSP 算法,如重叠相加和各种采样窗口选择。
服务器应用程序使用 DOCA CUDANetIO 从 GPU 内核接收 GPU 内存中的数据包。当已经接收到数据包的子集时,CUDA 内核并行地通过cuFFTDx 库处理每个数据包的有效载荷。同时,对于每个数据包,不同的 CUDA 线程应用频率滤波器来降低低频或高频的幅度。基本上,它采用低通或高通滤波器。
反向 FFT 被应用于每个分组。通过 DOCA GPUNetIO , CUDA 内核将修改后的数据包发送回客户端。客户端重新排序数据包并重新构建它们,以重新创建应用了音效的可听见且可再现的 WAV 音频文件。
使用该客户端,该团队可以调整参数以优化音频输出的性能和质量。可以将流分离并将流复用到它们的处理链中,从而将许多复杂的计算卸载到 GPU 中。这只是触及了该解决方案的潜力,它可能为云 DSP 服务提供商打开新的市场机会。
总结
DOCA GPUNetIO 库促进了一种以 GPU 为中心的通用方法,用于在进行实时流量分析的网络应用程序中获取和传输数据包。这篇文章展示了如何在不同上下文的广泛应用程序中采用这个库,从而在延迟、吞吐量和系统资源利用率方面提供了巨大的改进。
要了解有关 GPU 数据包处理和 GPU NetIO 的更多信息,请参阅以下资源: