现代企业组织在运营过程中通过工单系统、事件报告、服务请求和支持上报等途径产生大量数据。这些工单往往蕴含着系统性问题、反复出现的痛点以及团队绩效等方面的重要信息。然而,从中提取有价值的洞察仍面临诸多挑战。
许多售票平台主要面向工作流程操作而设计,而非数据分析。其结构化字段缺乏一致性,自由文本描述混乱,且工单之间的关联关系往往未被记录或难以查询。
因此,当领导层提出要求时……
- “我们组织中反复出现的主要问题有哪些?”
- “哪些团队持续在处理相同的根本原因?”
- “为何某些团队解决问题的速度较快,而其他团队则较慢?”
- “在问题解决的质量或一致性方面,我们发现了哪些差距?”
即使尝试,也只能通过繁琐的查询、导出或电子表格来拼凑信息。
ITelligence, 是 NVIDIA IT 团队开发的内部 AI 智能体,融合了 NVIDIA Nemotron 开源模型的强大推理能力与图数据库的表达优势。该智能体具备双重目标:1) 通过高效利用 大语言模型(LLM),从非结构化的支持工单数据中生成符合上下文的洞察,揭示潜在信息;2) 借助基于图结构的查询方法,追踪实体间关系,识别异常情况,并在大规模数据中发现模式。
本博文旨在分享我们的学习成果,并为他人提供实用指南,帮助其在各自组织中构建类似且高效的AI驱动智能体。
尽管所述实施主要聚焦于IT运维,但所提出的架构与工作流程不依赖于特定领域,可广泛适用于任何基于工单的环境,其中需要将非结构化记录转化为结构化洞察,例如安全事件响应、客户支持平台或设施管理系统等场景。
奠定基础
该系统的核心是一个模块化且可扩展的数据管道,能够提取、丰富并分析操作数据,为根因分析和洞察生成提供支持。该架构包含以下几个关键阶段:
1. 数据提取与图形建模
调度提取、转换、加载(ETL)作业可用于从多个企业系统中提取数据,例如 IT 服务管理(ITSM)平台中的事件和请求工单、终端设备清单以及身份数据源。我们选择了基于批量处理的方法,而非采用流式平台或事件驱动的数据摄取方式。这一决策主要基于用例对最终一致性的可接受性:由于分析过程无需实时数据,定期运行的 ETL 作业不仅实现简单,而且更易于维护,能够有效满足当前的运营需求。
对每个数据流进行归一化处理后加载至图形数据库,其中实体被建模为节点(如用户、事件、设备、组、服务请求),其相互关联则被建模为关系(如 OPENED_BY、ASSIGNED_TO、HAS_DEVICE、ASSIGNED_TO、REPORTS_TO)。
这种图形表示能够支持灵活的多跳查询,而在传统的关系型数据库或扁平化的报告结构中,实现此类查询往往成本高昂且复杂。
例如,下图展示了一个简单的图形查询,它捕捉到一种复杂的操作模式,并在一个分析视图中清晰呈现了工单、用户、根本原因、管理链及分配组之间的关联,揭示出有价值的洞察。
2. 上下文丰富任务
为在创建工单时将辅助属性关联到用户和设备,从而为每个工单提供更丰富的上下文信息,请运行相应的增强作业。示例包括:
- 根据开票器的开始日期与开票日期,判断其是否由新员工操作
- 设备类型(主要设备与次要设备)
- 工作模式(远程、混合、现场)
- 雇佣类型(承包商或全职)
- 基于源标识符或请求来源,判断为用户创建或由机器人生成
这些扩展能够为图形增添语义深度,使下游分析可按相关维度对数据进行分割,而无需依赖用户手动填写的字段。
3. 根本原因分析(RCA)工作
确定真正的根本原因通常超出了标准 ITSM 分类的处理能力。为了解决这一问题,可以引入一个大语言模型(LLM)管道,对每张工单进行独立分析。具体而言,针对每张工单,可通过以下方式实现:
- 用户反馈的问题(症状)
- IT 人员的内部处理记录(实际解决方案)
- 相关扩展的元数据
然后,我们可以提示大语言模型(LLM)提取一个简洁的、 以逗号分隔的根本原因关键词列表,这些关键词能够准确反映每个问题的本质(例如,YubiKey、passkey、Microsoft Authenticator、注册)。生成的根本原因分析(RCA)结果可作为新属性存储在工单节点上,从而实现比传统ITSM分类更精细的分组与分析。
为此,我们测试了由 NVIDIA NIM 提供的多个开源模型,其中 llama-3_3-70b-instruct 表现出更优的准确性。
4. Insight Generation 工作
在使用结构化根本原因分析(RCA)完善工单后,可定期运行洞察生成任务,利用大语言模型(LLM)归纳组织或团队层面的共性模式。这些任务可根据不同类型的洞察需求,设计相应的提示(prompt)策略。<!–
- MTTR 分析:系统可筛选解决耗时较长的工单,提示大语言模型(LLM)总结导致处理周期延长的关键因素,识别标准操作流程中的延迟环节、错误的处理路径、外部依赖或流程缺口。
- 客户满意度洞察:针对客户满意度评分(CSAT)偏低或用户反馈负面的工单,可自动生成面向管理层的汇总报告,按团队或业务单元进行归类,突出未满足的客户期望、高频投诉问题以及潜在的优化方向。
- 根本原因分析(RCA)洞察:基于AI生成的根本原因分类,选取具有典型共性原因的工单,通过LLM提取其中常见的故障表现、重复出现的解决步骤及高层级模式,帮助团队识别潜在的系统性缺陷。
- 新员工洞察:通过分析新员工处理的工单,识别其在入职初期遇到的主要挑战与操作难点,为管理者提供清晰且可执行的反馈,揭示培训或支持体系中的薄弱环节及改进机会。
这些见解可与图形化上下文(如团队、管理者等)相关联,为每位领导者、团队或服务负责人提供精准且可操作的情报支持。
分布式告警与自动化洞察推送
为将洞察有效落实到行动中,可构建一个分布式告警系统,持续监控整个图谱中的KPI趋势。当关键指标偏离预期范围(例如平均解析时间延长、重复根因分析数量上升或客户满意度下降)时,系统将依据预设规则自动触发通知。这些告警可结合具体上下文、受影响的工单以及建议的改进方向,精准推送至相关负责人或管理人员。
该框架还可用于定期发送由 AI 生成的自动化时事通讯。每份时事通讯均可根据组织或管理者的需求进行个性化定制,内容可能包括:
- 热门 RCA 及循环模式分析
- 对 MTTR 等关键绩效指标产生显著影响的高优先级工单
- 低客户满意度案例中的用户反馈总结
- 每周关键绩效指标趋势分析
所有见解均由大语言模型基于结构化提示和丰富的工单数据生成,确保每位利益相关者都能自动获得与其情境相关的精准摘要。
该分层架构基于清晰的图形建模与精准的提示工程,使系统在扩展洞察生成能力的同时,能够灵活适应新的数据源、组织结构和应用场景。
设计简洁直观的 AI 界面
借助涵盖工单、用户、根本原因、组织结构、设备等信息的丰富且高度互联的数据集,系统能够实现强大的数据检索与便捷的访问。用户无需了解底层图谱模式、编写 Cypher 查询或依赖自定义脚本,即可轻松探索运营洞察。
我们需要一个接口:
- 支持用户按有意义的维度对数据进行切片与筛选,
- 提供结构化查询及按需生成摘要的功能,
- 界面设计直观,便于缺乏深厚技术背景的分析师和管理者使用,
- 在理解用户意图时有效降低歧义,提升准确性。
因此,我们需要评估两种界面范式:对话式聊天机器人(基于检索增强生成技术与大语言模型)和交互式控制面板。
考虑到数据模型的复杂性以及在解读用户意图时对精确性的要求,我们选择了交互式仪表板作为平台界面的基础。它能够以清晰、可靠且易于使用的方式,帮助用户从高度结构化的图表中导航并提取有价值的见解。
为什么不使用基于 RAG 的聊天机器人?
鉴于近期 RAG 和对话式 AI 的快速发展,我们不禁会思考:为何不直接在图结构上构建聊天机器人界面呢?
尽管这一想法颇具吸引力,但在实际应用中仍存在不足,特别是在采用丰富且高度相关模式的情况下。
在这种情况下,底层数据库包含大量相互关联的实体与属性,例如工单、用户、设备、层级结构、根本原因、团队、服务和分配组等。将开放式的自然语言查询转化为准确且可执行的图查询,不仅实现难度较高,而且容易出错,同时自然语言本身往往具有模糊性。
其目标是提升用户的工作效率,而非让用户在聊天机器人界面中反复交互以澄清意图。当用户需要答案时,应能快速、准确地获取所需信息,而无需费力揣测如何表达问题才能被系统理解。
例如,当用户提出问题时:
最近关于 VPN 的常见问题有哪些?
该问题可对应多个意图:
- 根本原因的过滤源于与 VPN 相关的问题单。
- 应筛选出分配组与 VPN 关联的工单。
- 同时过滤在描述或元数据中提及 VPN 的工单。
- 根据用户需求,将“最近”定义为过去 7 天、30 天,或采用默认的时间范围。
模型必须在不进行猜测的前提下解决此类模糊性问题,而在复杂的模式或概念重叠的情况下,这尤为困难。首次生成准确的 Cypher(或任何查询语言)往往不可靠,而对于缺乏底层图结构背景知识的最终用户而言,通过聊天界面调试错误的查询语句会令人倍感挫败。
推荐方法:配备按需摘要功能的 AI 控制面板
为提升见解的可访问性与交互性,我们建议集成交互式数据可视化平台(选用 Grafana),该平台由图数据库和自定义摘要 API 服务提供支持。所有静态数据(如指标、KPI、预生成的见解、工单及其元数据)均可直接从图数据库中实时提取,实现高效展示与交互。
然而,仍有一个环节需要人工参与:即使已根据 RCA™ 驱动程序、音频和分配组™ X、Y 等标准对工单进行了筛选,用户仍需逐一查看工单,以识别常见的问题痛点和解决方案模式。这一过程导致分析效率低下,难以有效推动系统性改进的优先实施。
为了实现该工作流程的自动化,可以引入一个与 Grafana 控制面板直接集成的摘要服务 API。当用户在控制面板中选择过滤器(如组织、分配组、根本原因或类别)时,这些筛选条件可通过与 Business Text 面板关联的 Infinity 数据源,以 JSON 格式的数据载荷发送至摘要服务 API。
在后端,摘要服务能够实现以下功能:
- 接收用户在控制面板中选定的标准(即所选变量)
- 从图表中检索匹配的工单(ticket)
- 将检索结果注入结构化提示词
- 通过 NVIDIA NIM API 发送提示,调用大语言模型生成摘要(可访问 build.nvidia.com 了解使用方法)
- 将生成的响应返回至数据可视化平台进行展示
然后,可在 AI 生成的摘要面板中呈现输出,提供简洁的执行摘要,内容包括:
- 常见问题与症状
- 典型问题解决路径
- 频繁出现的故障模式(按位置、作业类型、设备等分类)
- 基于AI生成的建议内容
这消除了手动工单分类的需求,使团队能够通过控制面板直接获取所需上下文信息。
了解详情
该AI智能体旨在弥合IT工单运维中的关键鸿沟:从海量非结构化工单数据中提取有意义的洞察。通过融合AI驱动的分析能力、基于图谱的建模方法以及灵活的查询机制,平台能够将繁杂的操作信息转化为清晰且可执行的智能决策支持。
从自动识别根本原因并提供丰富的上下文信息,到生成实时执行摘要和主动发出警报,智能体能够为团队提供决策所需的清晰洞察与响应速度。
订阅 NVIDIA 新闻,并在 LinkedIn、X、Discord 和 YouTube 上关注 NVIDIA AI,及时获取关于 NVIDIA Nemotron 的最新动态。
- 访问我们的 Nemotron 开发者页面,了解如何开始使用高度开放且智能的单次计算推理模型。
- 前往 build.nvidia.com,探索 Hugging Face 和 NIM 微服务,以及 Blueprint 上推出的全新开放 Nemotron 模型与数据集。
- 分享您的想法,并参与投票,共同影响 Nemotron 未来功能的发展方向。
- 关注即将上线的 Nemotron 直播活动,并通过 Nemotron 开发者论坛 或 Discord 中的 Nemotron 频道,与 NVIDIA 开发者社区建立连接。
观看视频教程和直播,充分发掘 NVIDIA Nemotron 的潜力。