使用 CUDA-X 数据科学加速 GPU 模型训练的方法

在之前关于 AI 在制造和运营中应用的博文中，我们探讨了供应链所面临的独特数据挑战，并介绍了智能特征工程如何显著提升模型性能。

本文重点介绍利用制造数据训练机器学习（ML）模型的高效实践方法。我们将探讨常见的陷阱，并展示GPU加速技术以及NVIDIA cuML等工具库如何为您的实验与部署提供强大支持，助力工厂车间实现快速创新。

为什么基于树的模型在制造业中表现出色

来自半导体制造和芯片测试的数据通常具有高度结构化和表格化的特点。每个芯片或晶圆都关联着一组固定的测试，这些测试可产生数百甚至数千个数值特征，以及早期测试中的分类信息，例如 bin 分配。由于这种结构化特性，基于树的模型成为比神经网络更合适的选择，因为神经网络通常在处理图像、视频或文本等非结构化数据方面表现更优。

基于树的模型的一个关键优势是其可解释性。这不仅在于了解会发生什么，更在于理解背后的原因。高精度的模型或许能提升产量，但可解释的模型能够帮助工程团队开展诊断分析，并为流程优化发现可行的洞察。

适用于基于树的模型的加速训练工作流

在基于树的算法中，XGBoost、LightGBM 和 CatBoost 长期在表格数据的数据科学竞赛中占据主导地位。例如，在 2022 年的 Kaggle 比赛中，LightGBM 是获奖方案中提及频率最高的算法，紧随其后的是 XGBoost 和 CatBoost。这些模型因具备可靠的准确性而广受认可，通常在结构化数据集上的表现优于神经网络。

典型的工作流程如下所示：

建立基准：从随机森林 (RF) 模型开始。这是一个强且可解释的基准，提供了性能和功能重要性的初始衡量标准。
借助 GPU 加速进行调整：利用 XGBoost、LightGBM 和 CatBoost 中的原生 GPU 支持，快速迭代 n_estimators、max_depth 和 max_features 等超参数。这在制造业中至关重要，因为制造业中的数据集可能包含数千列数据。

最终的解决方案通常是整合所有这些强大的模型。

XGBoost、LightGBM 和 CatBoost 如何进行比较？

三种主流的梯度提升框架（XGBoost、LightGBM 和 CatBoost）在树形增长策略、处理分类特征的方法以及整体优化技术方面存在显著差异。这些差异使得它们在速度、准确性和易用性之间各有权衡。

XGBoost

XGBoost（极端梯度提升）采用水平（或深度优先）的树生长策略，即在当前深度对所有可能的节点进行分裂后，再进入下一层，从而构建出结构较为均衡的决策树。这种策略虽然具有较强的全面性，并有助于通过正则化手段抑制过拟合，但在 CPU 上执行时可能带来较高的计算开销。得益于树结构扩展过程中的并行化能力，GPU 能够显著加快 XGBoost 的训练速度，同时保留其模型的稳定性与准确性。

主要特性: 水平树增长，可实现平衡树和稳健的正则化。
适用场景: 准确性、正则化和迭代速度 (在 GPU 上) 至关重要的情况。

LightGBM

LightGBM (Light Gradient Boosting Machine) 专为提升速度和效率而设计，但可能在稳定性方面有所折衷。它采用逐叶增长策略，仅对叶节点进行拆分，以最大程度减少损失。这一方法的收敛速度明显快于逐级增长方式，因此 LightGBM 具有很高的运行效率。然而，该策略可能导致生成的树结构深度不均衡，若缺乏适当的正则化，某些数据集上可能出现较高的过拟合风险。

主要特性: 以最高速度生长树叶树。它还使用基于梯度的单侧采样 (GOSS) 和独家特征捆绑 (EFB) 等先进技术来进一步提高性能。
适用场景: 进行首次迭代，在显存效率至关重要的大型数据集上建立基准。

CatBoost

CatBoost（分类提升）的核心优势在于其对分类特征具备强大的原生处理能力。传统的处理方法如目标编码，往往容易引发目标泄露问题，即目标变量的信息可能不恰当地影响特征编码过程。CatBoost 通过引入有序提升机制有效解决了这一难题。该机制采用一种基于排列的策略，在计算特征编码时仅利用序列中当前样本之前的历史样本对应的目标值，从而避免了信息泄露，提升了模型的泛化能力。

此外，CatBoost 构建了对称（遗忘）树，即同一层级的所有节点均采用相同的分割准则，这种正则化方式有助于提升 CPU 上的执行效率。

主要特性: 使用有序提升技术出色地处理分类数据，以防止目标泄露。
最适合: 具有大量分类特征或具有大基数特征的数据集，这些特征需要易用性和开箱即用的性能。

尽管原生库中用于训练这些模型的 GPU 加速性能不断提升，但 cuML 的 Forest Inference Library (FIL) 能够显著加快任何可转换为 Treelite 的基于树的模型的推理速度，例如 XGBoost、Scikit-Learn 和 cuML 中的 RandomForest 模型、LightGBM 等。要试用 FIL 功能，请下载作为 RAPIDS 一部分的 cuML。

特征越多，模型越好？

一个常见的错误是假设特征越多，模型性能就越好。实际上，随着特征数量的增加，验证损失最终会趋于平稳；当超过某个特定点后，继续添加更多特征往往难以提升性能，甚至可能引入噪声。

关键是找到“最佳点”。为此，可以根据使用的特征数量绘制验证损失曲线。在实际场景中，通常首先使用全部特征训练一个基准模型（例如随机森林），以获得特征重要性的初步排序。随后，按照该排序逐步引入重要性较高的特征，并在此过程中绘制验证损失的变化趋势，如以下示例所示。

以下 Python 代码片段将此概念付诸实践。它首先生成一个大规模的合成数据集（10,000 个样本，5000 个特征），其中仅有少量特征实际具有信息性。随后，通过逐步批量引入重要性较高的特征，评估模型性能的变化。

# Generate synthetic data with informative, redundant, and noise features
X, y, feature_names, feature_types = generate_synthetic_data(
n_samples=10000,
       n_features=5000,
       n_informative=100,
       n_redundant=200,
       n_repeated=50
)

# Progressive feature evaluation. Evaluating 100 features at a time, and compute validation loss as the feature set becomes larger
n_features_list, val_losses, feature_counts = progressive_feature_evaluation(
        X, y, feature_names, feature_types, step_size=100, max_features=2000
    )

# Find optimal number of features (elbow method)
improvements = np.diff(val_losses)
improvement_changes = np.diff(improvements)
elbow_idx = np.argmax(improvement_changes) + 1

print(f"\nElbow point detected at {n_features_list[elbow_idx]} features")
print(f"Validation loss at elbow: {val_losses[elbow_idx]:.4f}")

# Plot results
plot_results(n_features_list, val_losses, feature_types, feature_names)

This code example uses synthetic data with a known ranking. To apply this method to real-world problems, proceed as follows:

获取基准排名：在整个特征集上训练初步模型 (如随机森林或 LightGBM) ，为每列生成初始特征重要性分数。
绘制曲线：使用该排名以增量方式添加特征 (从最重要到最不重要) ，并在每个步骤中绘制验证损失。

该方法可帮助您直观地识别收益递减点，从而为最终模型选择高效且合适的特征集。

A graph showing the validation loss improvements diminishing after a certain threshold number of features in the dataset. — *图 1。展示特征爆炸陷阱的绘图*

为何使用 Forest Inference Library (森林推理库) 增强推理能力？

尽管训练过程备受关注，推理速度才是生产环境中最关键的考量因素。对于 XGBoost 等大型模型而言，这可能成为性能瓶颈。cuML 提供的 FIL 通过实现闪电般的预测速度，有效解决了这一问题。

工作流程非常简单：使用原生 GPU 加速训练 XGBoost、LightGBM 或其他梯度提升模型，然后通过 FIL 加载并部署这些模型进行服务。这样一来，即使在与训练环境不同的硬件上，也能实现显著的推理加速——在批量大小为 1 和较大批量的场景下，推理速度分别比原生 scikit-learn 快 150 倍和 190 倍。如需深入了解，请查看 NVIDIA cuML 中利用森林推理库（FIL）提升基于树的模型推理性能的功能。

模型可解释性：获得超越准确性的见解

基于树的模型的一大优势在于其透明度。通过特征重要性分析，工程师能够理解哪些变量对预测结果起关键作用。为进一步深入，可以运行“随机特征”实验，以建立重要性的基准。

其理念是在训练前将随机噪声特征注入数据集。随后，在使用 SHAP（SHapley Additive exPlanations）等工具计算特征重要性时，任何重要性不高于随机噪声的真实特征均可被安全地忽略。该技术为过滤无信息特征提供了一种可靠的方法。

# Generate random noise features
X_noise = np.random.randn(n_samples, n_noise)

# Combine informative and noise features
X = np.column_stack([X, X_noise])

Bar chart showing random features (blue) to determine the importance of an informative feature (red) from the dataset. Any feature with feature importance less than noise can safely be ignored. — *图 2。模型中 SHapley Additive eXplanation (SHAP) 特征重要性*

这种可解释性对于验证模型决策以及发现推动持续改进流程的新见解具有关键作用。

开始基于树的模型训练

基于树的模型（尤其是在由 cuML 等 GPU 优化库加速时）在制造和运营数据科学领域实现了准确性、速度与可解释性之间的理想平衡。通过精心选择合适的模型并充分利用先进的推理优化技术，工程团队能够在工厂车间快速迭代并部署高性能的解决方案。

详细了解 cuML 和扩展 XGBoost。如果不熟悉加速数据科学，可以查看实战研讨会、零代码更改加速数据科学工作流程和加速端到端数据科学工作流程。

使用 CUDA-X 数据科学加速 GPU 模型训练的方法

为什么基于树的模型在制造业中表现出色