网络

找出应用程序和网络的交叉点

现代数据中心可以运行数千种服务和应用程序。当出现问题时,作为网络管理员,您默认是有罪的。你必须每天证明自己的清白,因为很容易指责网络。这是一个不公平的世界。

很难将应用程序性能问题与网络关联起来。您可以从使用简单的 ping 或 traceroute 检查基本连接开始,检查基于 SNMP 的监视工具、嗅探器,甚至读取设备计数器以查找丢弃。与此同时,用户遭受应用程序速度慢、性能差甚至不可用的困扰。

不幸的是,所有这些经典的网络故障排除方法都很耗时,不能保证成功,因为有时使用它们几乎不可能查明问题。

NetQ 出手相救

为了方便网络故障排除, NVIDIA 开发了 NetQ – 一个可扩展的现代网络操作工具集,可实时提供网络可见性。

NetQ 团队最近推出了独特的 flow analysis 工具,以进一步增强可见性。流分析允许网络管理员立即将服务流量流与结构中的路径关联起来,从而大大减少了平均无辜时间( MTTI ),甚至确保没有网络问题。

流分析使您能够发现并可视化特定应用程序的通信流在结构中端点之间的所有路径。它监视整个结构的延迟和缓冲区利用率统计信息。随着 EVPN 和多租户成为大多数现代数据中心的标准解决方案,流分析工具旨在对不同 VRF 内覆盖和底层网络上的 TCP 或 UDP 数据进行采样。

当与 What Just Happened ( WJH ) ASIC 遥测一起使用时,流量分析变得更加强大。在分析流量时,会显示流量路径中所有交换机的流量相关 WJH 事件,以帮助您发现是否存在导致服务问题的掉线。这两个功能协同工作,最大限度地提高了查明影响应用程序的实际问题的可能性。

Screen shot of the dashboard showing latency results and a flow graph.
图 1.NetQ 流分析仪表板

根据数字

运行 NVIDIA Spectrum 2 或更高版本的交换机支持流分析。它还可以为使用不受支持的交换机或运行早期版本的 Cumulus Linux 或 SONiC 的交换机的棕地部署提供部分路径发现。

流分析基于数据包的四元组或五元组(包括 VXLAN 内部和外部标头)对流量进行采样。其采样寿命限制为 10 、 15 、 20 或 30 分钟。您可以决定是在创建时运行它,还是在以后安排它。

采样率粒度也可配置为低(每 10000 个)、中(每 1000 个)、高(每 100 个)或所有数据包(每 1 个)。采样率越高,所分析的数据越准确。较高的采样率会导致较高的 CPU 利用率,因此我建议为流量较大的流量设置较低的采样率。

在 NVIDIA Air 亲自体验

NVIDIA Air 是创建数据中心数字孪生的工具。使用 Air ,您可以构建自己的 Cumulus Linux 虚拟数据中心,测试它,使用 NetQ 验证它,探索特性,并学习一些最佳实践。它完全免费使用!

通过在 Air Marketplace 中旋转预构建的 NVIDIA Air Infrastructure Simulation Platform 演示来尝试流量分析。跟随导游参观,了解使用 NetQ 进行流分析可以为您的组织带来的显著好处。

有关详细信息,请参阅以下资源:

 

Tags