网络

使用 NetQ 4.1.0 分析结构范围内的网络延迟

NetQ 4.1.0 最近发布,引入了结构范围的网络延迟和缓冲区占用分析,以及许多其他增强功能。有关所有新功能的更多信息,请参阅 NetQ 4.1.0 用户指南

这篇文章包括以下特点:

  • 基于流的结构范围延迟和缓冲区占用分析(新增)
  • 刚刚发生的事情( WJH )仪表板(新)
  • 通用 webhook 通知(新)
  • 验证改进
  • gNMI 流媒体增强功能

结构范围内的延迟和缓冲区占用分析

NetQ 首次通过使用实时应用程序流量来解决影响应用程序性能的网络问题,提供了网络范围的结构延迟和缓冲区占用分析。 NetQ 使用 Cumulus Linux 对匹配 4 元组和 5 元组应用程序流的数据包进行采样,分析并报告每个交换机的延迟(最大、最小、平均)以及流路径上的缓冲区占用详细信息。

NetQ 图形用户界面会报告所有可能的路径、正在使用的路径以及每个路径的详细信息(图 1 )。在每个交换机上,都可以看到最小延迟、最大延迟和平均延迟。

WJH 是一种始终在线的全数据包检查工具,用于以线路速率检测网络问题,包括数据包丢失、拥塞和延迟问题。通过与 WJH 合作,流量遥测可以按需对匹配特定流量的流量进行深入分析和故障排除。

将这些功能结合使用,网络工程师可以主动发现并解决服务器和应用程序问题的根本原因,并将可能的中断或性能影响通知服务器或应用程序管理员。

Screenshot of the dashboard. NetQ analyzes all paths between nodes to determine latency statistics.Screenshot of the dashboard. NetQ analyzes all paths between nodes to determine latency statistics.
图 1 。基于流量的遥测

这与 sFlow 有什么不同?

基于 NetQ 流的遥测技术使您能够使用数据包的 5 元组或 4 元组信息(包括 VXLAN 内部或外部头)选择要分析的流。

sFlow 没有这种级别的灵活性,通常在物理端口级别进行监控。 sFlow 还提供特定的设备属性,而不与网络中的对等设备关联,因此无法提供数据来构建网络拓扑。

这和追踪路线有什么不同?

在 traceroute 的情况下,主机生成一个通过网络运行的数据包,用于收集跟踪数据。 NetQ flow telemetry analysis 使用实际的应用程序数据包来构建跟踪数据。从基于流的遥测中获得的数据包括硬件提供的延迟和缓冲区占用。 Traceroute 返回延迟的 ping 级别精度,这比硬件级别的延迟精度低很多。

这与带内流量分析有何不同?

带内流分析本质上是侵入性的,因为每个跃点都会向数据平面中的数据包添加元数据。这会造成网络开销。基于 NetQ 流的遥测不会改变数据平面数据包结构。

刚才发生了什么

NetQ 4.1 引入的新 What Just Occess ( WJH )仪表板显示了 WJH 事件的时间线视图、生成 WJH 事件的顶级开关、顶级事件类型等等。这使您能够快速从结构中所有交换机收集的 WJH 事件数据中获取见解。 WJH 事件详细信息可用于触发前面描述的流量遥测分析。

The What Just Happened events dashboard presents key network events.The What Just Happened events dashboard presents key network events.
图 2 。刚才发生了什么

以下是如何充分利用 WJH :学习、清洁和个性化。

将所有交换机的 WJH 事件集中收集到 NetQ 中。这使您能够查看网络中发生的丢包、拥塞、 ACL 和其他协议。 NetQ 仪表盘按放置类别组织:

  • L1
  • L2
  • 路由器
  • 地下通道
  • 缓冲器
  • 国际计算语言学协会

清洁的

WJH 报告通知网络、服务器和存储管理员的问题。按优先顺序解决 WJH 发现的网络问题。

个性化

将 NetQ 上的 WJH 过滤器设置为只接收未来选定的 WJH 事件。例如,在 ACL 的下一次修订更新之前,您可能不希望收到 ACL 删除。这会将事件的数量减少到对你重要的程度。

NetQ 还提供了接收特定事件类型或具有特定严重性的事件的灵活性。 NetQ 还提供在 WJH 事件上设置跨越阈值警报,这些警报可以与 PagerDuty 、 Slack 和其他通知工具集成。

验证增强

在生产网络中, NetQ 验证提供了对网络实时状态的洞察,并有助于主动监控和故障排除。作为 NetQ 4.1.0 的一部分,对验证检查进行了重新设计,从而显著提高了性能。

  • 根据数据中心结构中运行的协议,可以启用或禁用每小时网络验证检查。
  • 全局验证检查过滤器应用于 NetQ 4.1.0 的每小时网络验证检查,使网络管理员能够建立与网络中运行的内容匹配的干净网络验证状态。

当这个基线建立后,使用 NetQ 很容易检测到任何偏差。

在 NetQ 4.1 中,添加了分组概念,以在站点内创建多个验证范围。使用此功能,在单个站点中具有多个结构的客户可以按需运行每个结构,并按计划进行验证。

Screenshot of the run on group of switches option. NetQ has re-architected the validation check process for higher performance and better ease-of-use.Screenshot of the run on group of switches option. NetQ has re-architected the validation check process for higher performance and better ease-of-use.
图 3 。 NetQ 验证检查
Screenshot of grouped switches. Switches may be grouped to make it simpler and faster to validate a subset of the network.Screenshot of grouped switches. Switches may be grouped to make it simpler and faster to validate a subset of the network.
图 4 。验证设备组

gNMI 流媒体增强功能

NetQ 4.1.0 支持 gNMI gRPC 网络管理接口 ,除了 Cumulus Linux 之外,还可以从 SONiC 上的 NetQ 代理收集 WJH 数据。对于 Cumulus Linux 交换机,可以使用 gNMI 传输系统资源和接口计数器。 用户指南中提供了 YANG 车型的详细信息。

通用 webhook 通知支持

NetQ 4.1.0 除了电子邮件、 syslog 、 PagerDuty 和 Slack 事件通知分发选项外,还引入了对通用 webhook 通知的支持。通用 webhook 使 NetQ 能够使用 JSON 格式的事件负载信息与定制应用程序集成。

总结

在本文中,您已经看到了 NetQ 4.1.0 提供的新功能的概述。您可以使用 NVIDIA Air 进一步探索 NetQ 4.1.0 。有关更多信息,请参阅 使用 NetQ 对网络进行故障排除

 

Tags