GTC 大会火热进行中!别错过 NVIDIA CEO 黄仁勋的最新发布,以及 AI 和加速计算的必听会议。
网络

使用 NetQ 排除网络故障

EVPN已成为现代数据中心架构的标准解决方案。对于终端用户来说,受益于基于BGP的控制平面所具有的稳定性,EVPN提供了扩展其广播域的灵活性。但这些增加的益处是以提高配置的复杂性为代价的。

当前所面对的不再是相对固定、简单,可以通过维护人员直观分析来发现错误的网络配置。真正的生产性EVPN配置可能包括多个深度嵌套结构,而且随网络中的租户数量成比例增长。

EVPN配置复杂性可以且必须通过适当的自动化解决方案予以解决,这可以减少人为出错的可能性,而NVIDIA Cumulus Linux正是解决该问题的合适解决方案。但仅有自动化还不够,错误仍然可以通过数据源引入系统,例如配置管理数据库(CMDB)的人为错误。

可观察性的重要性

这就是为什么对于任何具有合理复杂程度的基础设施,用户应该有办法来采集各类日志、指标,并且调试、输出、汇总、关联和处理这些信息,从而尝试推断系统的内部状态。实现这一点的能力通常被称为系统的“可观察性”,而且随着底层基础设施复杂性的增加,它正变得日益重要。在CNCF云原生环境 中,“可观察性和分析”部分不断增长的项目数量已证明了这一全行业趋势。对此,NVIDIA也持同样的观点。

Over time, data center networking has moved from proprietary protocols to open, standards-based cloud scale tooling.
图 1 。数据中心演进

通过NetQ实现的全网可观察性

长期以来,整个网络的可观察性仅限于拓扑视图——有些图包括从物理链接到L2,L3接口再到控制平面协议等不同层次的细节。但这些代表高层次意图的图只有在有人维护时才能保证准确。它们永远无法反映每个设备中所包含的网络的实际状态。NetQ在设计上解决了这些问题并为整个网络的运行状态提供了一个统一的观察窗口。

一方面,NetQ从其远程代理处收集和汇总多项指标,这些代理可能运行在网络交换机、通用计算服务器等任何位置。这些指标包括但不限于:接口统计和利用率、LLDP、MAC、ARP/ND和IP路由表、BGP、MLAG和OSPF的控制面状态,以及用于帮助诊断任一数据平面丢包的故障快照(What Just Happened)事件。

另一方面,NetQ使用这些指标来推断网络的内部状态并作出针对协议的诊断。这些检查包括从简单的MTU链路状态一致性到BGPEVPN状态验证再到端到端连接性测试。

故障排除演示

在这篇文章中,将演示如何使用NetQ来排除一些使用以下拓扑结构的常见配置错误。叶节点被配置为MLAG对,并且该结构内部正在运行带有对称IRB的EVPN和基于PIM的BUM复制 。

NVIDIA Air provides a network builder tool for visualizing leaf-spine topologies.
图 2 。 NVIDIA 空气中的拓扑

环境设置

该测试拓扑结构可以在名为NVIDIA Air的云基础设施模拟平台上启动。如要了解更多信息,请参阅《NVIDIA Air用户指南》。

1、选择创建模拟、演示市场和使用NetQ的网络故障排除选项卡。

在接下来的部分中,将讨论各种故障排除情景,并展示NetQ如何帮助确定问题的来源。

情景1:服务器01无法与服务器02通信

第一个问题很简单:两台服务器都连接到同一对叶节点交换机上,因此需要检查的地方仅限于以下几个方面:

  • 所有服务器链接的L1和Bond接口配置
  • peerlink的MLAG状态和配置
  • vlan 10和vlan 20的L3和VRR接口配置

通过NetQ,只需点击几下就可以完成所有这些检查。

1、在模拟页面,选择启动NetQ,输入用户名和密码

2、在工作台标题中,选择验证并创建一个新的MLAG验证。

This check found 4 errors for dual-homed devices.
图 3 。情景 1 结果

当验证完成后,NetQ发现双宿设备有四个错误。对于每一个出现错误的检查,用户都可以查看更详细的信息并了解NetQ认为的错误是什么。

This check found dual home errors on leaf01 and leaf02.
图 4 。场景# 1 详细信息
  1. 在本情景中,NetQ清楚地指向接口bond1的VLAN配置,现在可以通过登录和比较两台叶节点交换机上的配置来进行快速验证和纠正。

    用户可按照实验指导来依次解决问题。

     

    第二个情景涉及VXLAN EVPN结构上的VLAN内通信。这种故障的常用故障排除流程可能涉及以下步骤:

    1、确认所有BGP会话都已建立,并且所有对等层的EVPN地址族都已启用。

    2、确认所有四个叶节点交换机上的VLAN至VNI映射是一致的。

    3、确保导出和导入所需的Type-2路由使用同一组路由目标。

    4、检查BGP是否被配置为发布所有已配置的VNI。

    必须在所有叶节点交换机上比较这些数值。下面将展示用NetQ检查上述信息有多么简单。

    1、在主工作台标题选择选项卡并打开EVPN会话选项卡。

    2、在全屏视图中打开此选项卡,查看所有会话屏幕(图5)

情景2:服务器01无法与服务器04通信

This dashboard contains all EVP
图 5 。场景# 2 详细信息

现在可以在屏幕上看到所有的相关值,这些值以表格的形式呈现并且可以进行排序及过滤以缩小搜索范围。在该情景中,很容易发现叶节点01/02和叶节点03/04之间Vlan10的VNI映射差异。

用户可按照实验指导依次解决问题。

情景3:服务器01无法与服务器05通信

最后一个情景涉及VXLAN EVPN的VLAN间对称路由。这次,需要验证的内容有所增加,包括以下额外步骤:

  • 每个VRF的BGP配置和会话状态
  • EVPN 5型路由在叶节点交换机之间的传播
  • 检查L3 VNI的配置是否一致以及每个MLAG对是否有唯一的Router MAC
  • L3 VNI到VRF在所有交换机上的映射

通过NetQ EVPN验证功能,所有这些假设都可以在几秒钟内得到验证。

1、在主工作台标题中选择验证并创建一个新的按需EVPN验证。几秒钟后,用户即可看到结果(图6)

This check found 4 warnings for VRF consistency.
图 6 。情景# 3 结果

通过点击VRF一致性警告,用户可以清楚地看到错误位置。解决问题的时间缩短到几秒钟,管理员现在可以继续纠正叶节点03/04上的VNI至VRF映射。

This dashboard shows warnings indicating VRF inconsistency.
图 7 。场景# 3 详细信息

请查看实验室指南,了解解决这个问题所需的具体指令。

总结

在这篇文章中,展示了NetQ根据管理设备采集的各种指标来分析和推断网络状态的能力。以上三个情景展示了如何利用NetQ的验证和协议专用选项卡将根本原因分析的时长从几分钟或几小时缩短到几秒钟。这些验证可以按需求运行,也可以定期运行,甚至可以在过去的数据上运行,这是因为所有日志都存储在一个时间序列数据库中。

NetQ的能力远远超出了这篇文章中所展示和讨论的内容,并且其功能还包含设备库存、软件生命周期管理、基于阈值的警报以及与第三方平台(如Slack、PagerDuty和Grafana)的集成。NetQ将继续扩展并增加更多的功能和第三方集成,在未来为用户创造更多价值。

 

Tags