NVIDIA 中国开发者日活动 中国・苏州 | 2025 年 11 月 14 日 了解详情
人工智能/深度学习

NVIDIA NV-Tesseract 和 NVIDIA NIM 实现半导体制造智能异常检测

在之前的一篇博客文章中,我们介绍了 NVIDIA NV-Tesseract,这是一系列旨在统一框架内处理多种时间序列任务的模型,涵盖异常检测、分类和预测等应用。该研究为在数据持续演进的行业中构建可灵活适配的通用模型架构奠定了基础。

在半导体制造领域,挑战尤为严峻。每片晶圆需经历数百道高精度工序,期间产生海量传感器数据流,涵盖腔室压力、气体流量、射频功率水平以及振动等参数。传统的监控方法主要依赖固定阈值和统计过程控制(SPC),其报警机制往往基于统计规律,具有较强的滞后性。随着工艺参数的逐渐漂移,系统需要频繁重新校准,难以及时捕捉细微偏差或与特定工艺上下文相关的异常情况。此类异常一旦被忽略,生产流程仍可能持续运行,最终导致高达数百万美元的良率损失。

NV-Tesseract 作为 NVIDIA NIM 微服务所提供的价值正在于此。该模型能够识别单个信号以及多个相关传感器中异常发生时时间序列的精确时刻。这种精细的定位能力至关重要:工厂设施(如晶圆厂)可以准确判断晶圆可能出现问题的起始点,及时采取纠正措施,从而避免下游连锁反应带来的损失。

通过从事后检测转向实时异常定位,NV-Tesseract 将原始传感器噪声转化为可操作的洞察,不仅有助于保障产量、降低运营成本,也为实现更智能的工厂级自动化奠定了坚实基础。

通过从事后检测转向 实时异常定位,NV-Tesseract 将原始传感器噪声转化为可操作的洞察,不仅有助于保障产量、降低运营成本,也为实现更智能的工厂级自动化奠定了坚实基础。

晶圆厂数据

半导体制造是全球数据密集度最高的工业环境之一。每片晶圆需经历数百个高度受控的工艺步骤,每个制造设备都会通过数十个甚至数百个传感器持续传输数据。由此产生的不仅是海量信息,更是一系列相互关联、需同步分析的信号。单一传感器的微小偏差看似无足轻重,但结合其他传感器数据综合判断时,却可能预示着严重故障的初期征兆,因此,进行系统性的多变量分析显得尤为关键。

  • 水平移动: 传感器可能出现基准值的突然升高或降低,通常反映出校准发生变化或工具开始发生漂移。
  • 峰值与波动: 短暂且不稳定的异常读数爆发,往往表明等离子体源或气体流量调节器存在不稳定性。若未能及时控制,此类瞬时峰值可能导致整批晶圆受损。
  • 传感器故障: 有时传感器会失效,输出恒定为零或固定值,与实际状况严重偏离。这类“静默故障”极具风险,因其掩盖了工艺过程的真实状态。
  • 量程突变: 在某些情况下,传感器输出会突然跳转至完全不同的数量级,通常由配置错误或早期硬件故障引起。

从数据集评估中获得的经验启示

在晶圆厂数据集上测试 NV-Tesseract 有助于揭示一个关键见解:异常定位与异常检测具有同等重要性。传统的 SPC 图表和工具警报虽然能够标记异常值,却往往难以准确指出工艺偏离正常状态的具体时间点。由于这种定位精度的缺失,晶圆厂常常不得不报废超出必要范围的生产批次,或投入高昂成本进行重复检查。

在晶圆厂数据集上测试 NV-Tesseract 有助于揭示一个关键见解:异常 定位 与异常 检测 具有同等重要性。传统的 SPC 图表和工具警报虽然能够标记异常值,却往往难以准确指出工艺偏离正常状态的具体 时间 点。由于这种定位精度的缺失,晶圆厂常常不得不报废超出必要范围的生产批次,或投入高昂成本进行重复检查。

NV-Tesseract 重新定义了方程,精准识别异常发生的起始时间。该模型为晶圆厂提供了明确的决策依据:在此时刻之前处理的晶圆通常可被保留,而在此之后处理的晶圆则需进行更细致的检查。这种细粒度的判断,将异常检测从简单的“故障报警”转变为助力良率管理的实用工具。

影响是双重的:一方面,通过减少需要报废的产品数量,有效降低了浪费;另一方面,能够近乎实时地采取纠正措施,确保设备持续运行,防止缺陷向下游扩散,从而保障生产良率和成本效益。

简而言之,NV-Tesseract 并不能取代制造警报,而是通过提供在现代制造规模下采取果断行动所需的情境智能,对现有警报系统形成有力补充。

使用 NVIDIA NIM 部署 NV-Tesseract 模型

构建先进的异常检测模型只是半导体制造领域成功的一半。要让这些模型真正发挥作用,晶圆厂还需具备高效部署、灵活扩展并将其无缝集成到生产监控系统中的能力,同时避免耗费数周的工程时间。这正是 NVIDIA NIM 的价值所在。

NVIDIA NIM 是 NVIDIA AI Enterprise 的组成部分,提供一系列易于使用的微服务,旨在实现跨工作站、数据中心和云环境的高性能 AI 模型推理,兼顾安全性与可靠性。NIM 支持多种 AI 模型,包括开源社区模型和 NVIDIA AI Foundation 模型,通过行业标准 API,确保在本地或云端实现顺畅、可扩展的 AI 推理体验。

NIM 可在几分钟内从 NVIDIA NGC 目录完成容器化部署,支持在本地、云端和边缘环境中实现一致运行,并可通过编排框架(如 Kubernetes 和 Slurm)扩展至数百个微服务。该方案集成了运行状况检查、监控和安全功能,同时提供来自 NVIDIA 的持续验证、维护及企业级支持,确保满足性能与可靠性需求。

通过将 NV-Tesseract 以 NIM 形式提供,晶圆厂能够直接从研究原型迈向可扩展的生产部署,无需进行自定义封装或复杂的集成工作。

Workflow diagram showing how the NV-Tesseract NIM Container is applied in semiconductor manufacturing. Sensor and equipment data flow into the NIM container, which runs anomaly detection and inference. Results are returned to operators and integrated into fab monitoring systems for real-time decision support.
图1:半导体制造场景中 NV-Tesseract NIM 容器的工作流程示例

部署工作流程

使用 Docker 进行单节点安装的设计初衷是简化操作:

docker pull nvcr.io/nim/nvidia/nv-tesseract:<version-number>

docker run --gpus all -it --rm -p 8000:8000 \
  -e NGC_API_KEY=<YOUR_KEY> \
  -v /local/data:/workspace/data \
  nvcr.io/nim/nvidia/nv-tesseract:<version-number>

curl http://localhost:8000/v1/health/ready

curl -X POST http://localhost:8000/detect-anomalies \
  -H "Content-Type: application/json" \
  -d @sample_timeseries.json

输入和输出可采用 CSV 或 JSON 格式的时间序列数据,输出内容包括时间戳、传感器数值、异常评分、元数据,以及支持相同格式的诊断信息。

JSON 有效载荷输入格式示例

该服务支持以 JSON 或 CSV 格式输入多变量时间序列。

每个元素都是一个具备以下特征的对象:

  • ts : 时间 ( ISO-8601 格式的字符串,例如。” 2025-09-05T14:33:52Z “)
  • value : 传感器数值读取 (浮点运算)
[
  {"ts": "2025-09-05T14:33:52Z", "value": 2.31},
  {"ts": "2025-09-05T14:34:52Z", "value": 11.2},
  {"ts": "2025-09-05T14:35:52Z", "value": 450.0},
  {"ts": "2025-09-05T14:36:52Z", "value": 4531.9}
]

JSON 有效载荷输出格式示例

该服务将返回长度相同的 JSON 或 CSV 数组。

每个元素包含:

  • ts : 时间 (训练秒)
  • value : 传感器数值读取 (浮点运算)
  • Anomaly : 整数标志 ( 0 = 正常,1 = 异常)
[
  {"ts": 1730855632, "value": 2.31,   "Anomaly": 0},
  {"ts": 1730855692, "value": 11.2,   "Anomaly": 0},
  {"ts": 1730855752, "value": 450.0,  "Anomaly": 0},
  {"ts": 1730855812, "value": 4531.9, "Anomaly": 1}
]

从噪声信号中提取可行的见解

半导体晶圆厂在生产过程中会产生大量的传感器数据,包括压力、流量、温度和振动等,这些数据均可能包含设备故障的早期信号。长期以来,工程师依赖固定的阈值和人工设定的规则进行判断。然而,在现代芯片制造环境中,面对数据噪声、参数漂移以及庞大的系统规模,这类传统方法已难以有效应对。

NIM 中的 NV-Tesseract 路线图包含以下内容:

  • 针对晶圆厂的特定数据进行模型微调,使其能够根据不同设备、工艺或生产线的特点,动态调整异常判定标准。
  • 通过超参数调优,可在精度与召回率之间进行权衡,使晶圆厂根据实际运营需求灵活调节检测灵敏度.

通过 NIM 集成这些进展,它们将不再局限于研究代码,而是会被封装成一系列工具,实现便捷的部署与扩展,应用于多种场景。

  • 保护晶圆良率——等离子体强度、气流或温度的微小偏差都可能导致整批晶圆报废。通过及早识别异常,晶圆厂可在良率受损前及时暂停生产、进行调整或实施维护。
  • 缩短停机时间——以往可能数小时都未被发现的传感器故障或校准偏差,如今可实现即时检测,有效避免由此引发的连锁反应,减少设备停机和工具损坏风险。
  • 增强工程师信任——频繁的误报会削弱系统可信度,而遗漏异常则会影响正常运行。NV-Tesseract 能够在有效抑制噪声的同时准确识别真实事件,从而提升对自动化监控系统的信赖。
  • 实现智能化扩展——晶圆厂无需为每台设备或工艺单独定制解决方案,即可在数百台设备上快速部署统一的异常检测功能,显著降低集成复杂度,加速技术落地与应用推广。

开始使用

半导体晶圆厂面临行业中最复杂的数据挑战之一,但借助 NV-Tesseract 和 NIM,先进的异常检测技术能够在几小时内从研究阶段快速部署至生产环境。

您可以申请抢先体验 NV-Tesseract NIM,并在本地、云端或边缘环境中直接部署运行。通过容器化服务,能够便捷地接入自有传感器数据进行测试,直观验证 NV-Tesseract 在关键异常场景中的处理能力。

联系 NVIDIA DGX 云团队,申请抢先体验 NV-Tesseract NIM,预约演示,深入探讨您的时间序列需求,并了解 NV-Tesseract NIM 如何助力构建半导体异常检测工作流程的核心基础。

 

标签