NVIDIA 中国开发者日活动 中国・苏州 | 2025 年 11 月 14 日 了解详情
代理式 AI/生成式 AI

借助 NVIDIA NV-Tesseract-AD 推进行业应用的异常检测

在最近的一篇博客文章中,我们介绍了 NVIDIA NV-Tesseract,这是一系列旨在将异常检测、分类与预测统一到同一框架中的模型。该研究展示了利用共享通用主干网络解决多种时间序列问题的潜力。

NVIDIA NV-Tesseract-AD 在此基础上进一步发展,采用了一条更为专业化的技术路径。该模型不仅依托于转换器架构,还引入了 扩散建模,并结合 课程学习 以提升训练稳定性。同时,它与专为异常检测设计的 自适应值方法 相融合。这些技术的协同作用,有效应对了该领域中一系列关键挑战:高维噪声信号随时间发生的漂移,以及其中包含的罕见且不规则的异常事件。

同样重要的是,NV-Tesseract-AD 代表的是一种进化,而非彻底重置。该模型的初版仅限于处理单变量数据集,且在面对噪声时常常出现不稳定现象。版本 2.0 扩展了原有架构,能够处理多变量输入,采用课程学习策略实现更稳定的训练过程,并引入自适应机制,从而在现实应用场景中展现出更强的鲁棒性。

为何需要重新思考异常检测

异常检测看似显而易见:只需在数据流中找出异常点即可。然而,任何处理过现实世界时间序列数据的人深知,这实际上是数据科学中最具挑战性和复杂性的问题之一。

挑战源于非平稳性。信号极少保持恒定不变:半导体传感器会因设备磨损而发生漂移;患者的生命体征随着昼夜节律、饮食和体力活动不断变化;航天器的遥测数据则因探测任务的不同——如巡航、钻探或待机——呈现出显著差异;云服务的关键性能指标(KPI)在流量高峰期急剧上升,夜间趋于平稳,又在批量任务执行时再次攀升。某种状态在某一时刻被视为异常,而在另一时刻却可能完全正常。

接下来是噪声与稀疏性问题。标签数据稀少且往往不可靠,获取真实异常标注的成本较高。操作人员只能标记他们所观察到的现象,而即便是领域专家,也可能对某一波动究竟是真实故障还是正常的自然变化存在分歧。许多数据集中充斥着误报,或完全遗漏了我们希望检测到的故障类型。

例如,在核电站中,数千个传感器持续监测反应堆压力、冷却剂流速和堆芯温度等参数。真正的异常情况,如少量冷却剂泄漏或泵的早期故障,极为罕见,而微小的压力波动通常被视为正常运行中的噪声。若判断失误,此类异常可能被忽略,从而掩盖可能导致严重安全问题的连锁故障的初期征兆。

这种情况向各行各业揭示了一个普遍存在的挑战:标签稀疏且不可靠,导致监督学习容易在杂乱的小规模数据集上过拟合,同时无法充分利用大量未标注数据中蕴含的关键模式。

在 Genesis 和 Calit2 等公共机器学习数据集上测试 NV-Tesseract-AD 1.0 时,这些问题尤为明显。这些数据集以复杂性和标签稀疏性著称,而 1.0 版本仅在单一信号上进行训练,导致检测结果微乎其微,甚至完全失效。在理想化的环境中看似可行的方案,一旦面对混乱的真实世界数据,便难以维持其有效性。

GenesisCalit2 等公共机器学习数据集上测试 NV-Tesseract-AD 1.0 时,这些问题尤为明显。这些数据集以复杂性和标签稀疏性著称,而 1.0 版本仅在单一信号上进行训练,导致检测结果微乎其微,甚至完全失效。在理想化的环境中看似可行的方案,一旦面对混乱的真实世界数据,便难以维持其有效性。

主要见解:

  • 传统统计方法通常假设系统在经历漂移或政府更迭时保持稳定,难以应对崩溃情形。
  • 即便是深度学习模型,在面对数据噪声、标签稀疏或分布偏移时,也容易出现性能波动。
  • 生成式方法,特别是扩散模型,通过学习多种“正常”行为模式,为应对这些挑战提供了新的解决路径。

时间序列扩散模型

生成式扩散模型最初是为图像处理而设计的,但其基本原理与时间序列的特性高度契合。该模型并非通过单次推断重建信号,而是先逐步引入噪声以破坏原始数据,再学习如何逆向恢复这一过程。最终训练得到的模型能够捕捉精细的时间结构,并可扩展用于处理数百乃至数千个相关信号(方法细节请参见 arXiv:2508.06638,相关专利正在申请中)。

这种迭代优化具有强大的能力。当模型学习了多种“正常”轨迹后,细微的偏差——例如患者心跳的微小变化或卫星电池电压的轻微波动——便会变得显著。那些难以被有效降噪的信号会凸显为异常,并非因为它们超出了固定的阈值,而是因为它们破坏了数据内在的结构特征。

然而,扩散过程本身较为脆弱。当训练任务过于复杂(例如信号严重损坏或遮罩比例过高)时,模型可能仅进行简单的重建,甚至无法收敛。NV-Tesseract-AD 通过课程学习策略应对这一挑战:在训练初期,模型主要接触轻度损坏的输入,此时去噪任务相对简单;随着训练的推进,噪声程度和遮罩比例逐步增加,促使模型逐步掌握更复杂的重建能力。

这种“易于使用”的进度安排有助于稳定训练过程、降低结果的方差,并生成在部署后更具泛化能力的模型。在实践中,课程学习往往是区分脆弱实验与能够应对生产环境中数据不可预测性系统的關鍵因素。

A flowchart depicting curriculum training where the model begins with lightly corrupted signals and gradually progresses to noisier, heavily masked inputs, ensuring stability and stronger generalization.
图1:NV-Tesseract-AD 中的课程训练时间安排

分段置信序列与多尺度自适应置信段

扩散模型能够生成异常分数,但这些分数仍需依赖阈值来驱动决策,而阈值往往是整个流程中最关键且易出问题的环节。在信号发生漂移、制造设备重新校准、患者由静息转为活动状态,或网络在高峰与非高峰需求之间波动等动态环境中,固定的全局阈值往往难以适应变化。这种情况下,静态的判定标准不仅可能遗漏真实的异常,还可能产生大量误报,给操作人员带来沉重负担。<!–

为解决这一问题,NVIDIA 研究人员提出了两种正在申请专利的方法:分段置信序列(SCS)多尺度自适应置信段(MACS)。这两种方法均为无监督式、与模型无关的技术,基于置信区间理论构建,因此不仅适用于 NV-Tesseract-AD 系统,还可推广至其他领域。作为推理过程的一部分,它们被应用于异常检测工作流中的阈值设定阶段,用于判断偏差是否达到显著水平。

SCS 将时间序列划分为若干局部稳定的机制,每个机制具有独立的统计基准。置信边界可根据各机制内的特性进行动态调整,从而在需要时提升检测灵敏度,在自然波动较大时增强判断的稳健性。

A flowchart depicting how segmented thresholds adapt to new regimes by establishing local statistical bounds.
图2。分段值通过构建局部统计边界,适应新的机制。

MACS 能够同时利用短期、中期和长期窗口对数据进行分析。通过注意力机制,系统可自动关注更具相关性的时间尺度,而双重检测规则则有助于降低误报率。这使得 MACS 无需依赖独立的检测模块,即可有效识别快速爆发和缓慢漂移的信号。

Flowchart showing multi-scale thresholds detecting anomalies: bursts, drifts, overlapping patterns.
图3展示了多尺度值能够有效捕捉以快速爆发、缓慢漂移或模式重叠等形式出现的异常情况。

SCS 与 MACS 共同实现了长期以来难以达成的异常检测平衡:既能充分灵敏地识别细微错误,又具备足够的严谨性,避免操作员被噪声干扰所困扰。

主要观点:

  • SCS 能够依据局部稳定机制动态调整参数,在有效控制误报的同时提升召回率。
  • MACS 可在多个时间尺度上分析数据,从而以更低的误报率捕捉突发变化与趋势漂移。
  • 这两项均为 NVIDIA 正在申请专利的创新技术,具备无监督性和可解释性,其应用范围超越 NV-Tesseract-AD。

从评估到实际影响的转化过程

我们的评估并非追求排名领先。我们提出的问题较为直接:当您将扩散技术与自适应方法应用于噪声较大的多变量数据集时,会出现什么情况?

如前所述,在对 GenesisCalit2 公共数据集的测试中,两个版本的表现差异显著。版本 1.0 产生的结果微乎其微,甚至毫无成效;而版本 2.0 引入了扩散机制和自适应参数,能够有效区分真实结构与噪声,从而准确识别出与系统此前无法察觉的异常现象相吻合的异常情况。关键优势不仅体现在更高的准确性,更在于其出色的鲁棒性——即便在噪声严重、数据稀疏的条件下,该版本仍能保持稳定的性能表现。

这种韧性在现实场景中具有直接体现。在医疗保健领域,问题的关键并非缺乏异常检测,而是存在大量误报。重症监护室的临床医生无法对患者生命体征的每一次微小波动都采取干预措施。他们需要一个能够学习个体患者基线状态、动态调整参考值,并仅提示显著偏离的系统。NV-Tesseract-AD 正展示了此类方法如何有效减少干扰性警报,增强临床医生的信任,并在真正异常出现时加快响应速度。

在航空航天领域,遥测系统通常包含数千个通道,这些通道在任务不同阶段表现出显著变化。当航天器切换运行模式时,静态阈值可能引发误报警,干扰操作人员判断,甚至导致未能及时察觉严重故障发生前的细微信号漂移。NV-Tesseract-AD 通过结合扩散建模与自适应机制,能够有效区分正常的系统状态偏移与真正的异常行为,例如在探测车车轮出现非预期扭矩变化时及时识别并响应,从而在问题演变为任务级故障前实现早期预警与处理。

在云运营中,可靠性依赖于对大量指标的持续监控,其中突发性峰值和长期趋势尤为关键。运营商不仅需要警报,更需要具备高可信度的警报。多尺度数值分析使 NV-Tesseract-AD 能够准确识别快速爆发的 API 错误,同时避免将其与长期缓慢漂移混淆,也能捕捉静态阈值难以发现的渐进式内存泄漏。这使得工程师所依赖的监控面板响应更迅速,干扰更少,运维效率显著提升。

主要见解:

  • 对噪声数据集(如 Genesis 和 Calit2)的评估表明,该版本在值的扩散性能上相较于 v1.0 有显著提升。
  • 这一改进在现实场景中具有重要意义:有助于减少医疗健康领域的误报,识别航空航天领域中的政策变更,并有效过滤云运营中的噪声干扰。
  • 该框架展现出对数据噪声和概念漂移的强韧性,为在任务关键型环境中建立可信性提供了重要基础.

新一代异常检测的广阔发展方向

异常检测始终是人工智能领域最具持久性的挑战之一。静态规则在数据分布发生变化时往往失效,而即便是先进的深度学习模型,在复杂高维环境中也容易表现不佳。NV-Tesseract-AD 代表了一种方法论上的突破,它将扩散建模、课程学习、自适应机制以及一系列精心设计的优化整合到统一框架中,致力于实现跨行业更智能、更鲁棒的异常检测。

我们的评估表明,采用扩散机制和自适应数值方法后,异常检测系统在抗噪能力方面表现更优,能够更有效地应对多变量复杂性,同时也更受操作人员信赖。尽管更广泛的验证与优化仍在持续进行,但目前的研究成果已为新一代异常检测系统的开发提供了极具前景的方向。

启动 NV-Tesseract-AD 

NV-Tesseract-AD 将以附带评估许可证的客户预览版形式率先推出,用户可率先体验其先进的时间序列建模功能。通过该系统,用户能够导入自有数据集,采用课程学习与自适应参数,运行基于扩散机制的异常检测,并根据实际需求灵活调整检测灵敏度。系统支持从概念验证平滑过渡至探索性生产试点,同时可轻松集成到现有的 MLOps 流程及现有检测方法中。

联系 NVIDIA DGX 云团队,安排演示,深入探讨您的时间序列需求,并了解 NV-Tesseract-AD 如何助力构建高效的异常检测工作流程。

想参加2025年10月7日至9日举行的 SEMICON West吗? 欢迎在10月9日(星期四)观看我们的专题会议智能制造与预测性维护中的时间序列建模”。

 

标签