借助 NVIDIA NeMo Curator 扩展和整理用于 LLM 训练的高质量数据集

大型语言模型 (LLM) 是提高运营效率和推动创新的强大工具。NVIDIA NeMo 微服务旨在简化构建和部署模型的流程。构建任何 LLM 系统的关键步骤是整理用于训练或自定义模型的令牌数据集。

但是，整理合适的数据集是一项具有挑战性的任务。数据的多样性、相关性和质量都是影响模型良好运行能力的因素。数据还应该遵守数据保护法规，并尊重个人的隐私。

本文将探讨 NVIDIA NeMo Curator 框架的最新更新。该框架最近推出，旨在简化数据管护流程，为企业级采用生成式 AI 提供基础。

NeMo Curator 可简化和扩展数据管护流程

NeMo Curator 支持模型预训练的数据管护，并基于以下关键支柱进行设计：性能、可扩展性和可定制性。

它可以跨数千个计算核心无缝扩展，并使用高度优化的 CUDA 内核轻松执行各种数据采集、预处理和清理任务，使企业开发者能够专注于解决问题。

NeMo Curator 以可扩展性和灵活性为设计理念，使开发者能够自定义数据管护流程，以满足其业务需求并解决其独特的挑战。每个组件都可以通过易于使用的配置文件快速自定义。

同时，该框架的 Pythonic API 只需几行代码即可更深入地自定义数据管护流程。

今天，NeMo Curator 提供了以下开箱即用的功能：

数据下载和提取
文本清理和语言识别
质量过滤
隐私过滤
领域和剧毒分类
重复数据删除
简化的可扩展性
支持模型自定义任务

数据下载和提取

NeMo Curator 随附多个辅助工具，用于从常用来源下载和提取数据。

NeMo Curator 简易易用，可以下载 CommonCrawl 快照，以及来自 Amazon S3 的 arXiv 批量数据。它还提供文本提取和其他数据操作的工具，将下载的数据整理为JSON 行格式，这是文本数据处理的标准格式。用户可以选择调整和定制这些模块，以支持来自任何来源的数据。

文本清理和语言识别

在数据采集之后，在进一步处理数据之前，一个重要步骤是将所有文本统一为 Unicode 格式，并识别所采集数据中存在的语言。

NeMo Curator 利用广泛使用的 ftfy：为您修复文本库，以解决与 Unicode 相关的所有问题。NeMo Curator 还提供辅助工具，用于识别每个获取的文档中包含的语言，并对其进行相应的组织，以帮助丢弃与 LLM 训练无关的文档。

质量过滤

NeMo Curator 附带一套基于启发式算法和 ML 的预定义定性标准。使用这些标准将文档分为高质量和低质量桶，从而实现快速数据集迭代，并确保所采集数据达到预期质量水平。使用配置文件自定义这些预定义标准，以根据个人业务需求进行调整。

隐私过滤

遵守数据保护法规是任何企业解决方案的重要考虑因素。

NeMo Curator 提供 GPU 加速的 PII 检测和编辑模块。您可以指定要编辑的类别以及如何编辑这些类别。例如，您可以检测所有名称和地址，并将其替换为其他令牌。

领域和剧毒分类

确保数据质量和相关性的另一个方面是识别和删除域外数据以及有毒数据。

您可以定义自定义过滤器来清理数据集，并将其与外部工具和机器学习术语中的类别进行分组。

重复数据删除

互联网级数据可能包含许多相同或近乎相同的文档，这可能会产生存储和计算成本，并可能降低模型的性能。

NeMo Curator 提供可配置的去重模块，该模块利用 MinHash 和其他常用算法的高度优化 CUDA 实现来去重文档。

简化的可扩展性

NeMo Curator 利用 Dask，这是一个开源的并行计算库，以其商用友好性而著称。它可以轻松地跨多个 CPU 和 GPU 进行扩展，并加速数据管护管线的每个组件。

NeMo Curator 可轻松与 Dask 数据结构集成，并支持 Dask 数组以及 RAPIDS cuDF。这意味着可以尽可能减少开发者干预，将处理卸载到正确的资源。

支持模型自定义任务

在不久的将来，NeMo Curator 还将支持模型自定义任务的数据管护，例如监督式微调 (SFT) 和参数高效微调 (PEFT) 方法，例如 LoRA 和 P-tuning。

NeMo Curator 支持采样和混合各种数据集以用于 SFT。它支持 SFT 的混合数据集，以及使用 NeMo Aligner 实现模型自定义，并确保与商业许可的数据集一致，以实现近乎先进的模型质量。

企业利用 NVIDIA AI 进行数据管护

领先的 AI 公司和全球企业正在使用 NeMo Curator 加速数据处理，以确保其训练数据集具有高质量。Hugging Face 是面向 AI 构建者的领先开放平台，正在与 NVIDIA 合作，集成 NeMo Curator 并加速 DataTrove，这是他们用于 LLM 训练的数据处理管道。Hugging Face 的产品总监 Jeff Boudier 表示：“我们对 NeMo Curator 的 GPU 加速功能感到兴奋，并迫不及待地想看到他们为 DataTrove 做出贡献！”

从数据集处理到由 DGX 云提供支持的 AutoTrain，我们新推出的无代码服务可使用最新的 NVIDIA GPU 轻松微调 LLM，我们与 NVIDIA 的合作加快了研究人员和开发者构建自己的 AI 的速度。”

韩国领先的电信公司 KT Corporation 已开始使用 NeMo Curator 实现可扩展性和高质量数据集生成。KT 希望使用由 NVIDIA NeMo Curator 准备的令牌训练的 LLM 能够获得先进的性能，从而生成高质量的数据集。

立即开始使用 NeMo Curator

目前，NeMo Curator 项目的代码可根据 Apache v2 许可证在 GitHub 库中找到。

本文中列出的许多功能将作为 NeMo Curator 微服务的一部分提供，为企业提供从任何地方开始数据管护的简便途径。它提供了简化的性能和可扩展性，以缩短上市时间。如需申请 NeMo Curator 微服务抢先体验，请参阅这里。

作为抢先体验计划的一部分，您还可以请求访问其他微服务，包括 NeMo Customizer 和 Evaluator，这有助于简化自定义生成式 AI 模型的微调和评估。

借助 NVIDIA NeMo Curator 扩展和整理用于 LLM 训练的高质量数据集