立即下载 DOCA,开启高性能AI 网络之旅,实现“一站式” 编程
数据科学

使用 NVIDIA NeMo Curator 提高生成式 AI 模型的准确性

在快速发展的人工智能领域,用于训练模型的数据质量至关重要。高质量数据可确保模型准确、可靠,并且能够在各种应用中很好地泛化。近期的 NVIDIA 网络会议“借助高质量多模态数据处理增强生成式 AI 模型的准确性”深入探讨了数据管护和处理的复杂性,并重点介绍了 NVIDIA NeMo Curator 的功能。

本文分享了在线研讨会的主要见解,重点介绍了数据管护的重要性、合成数据生成的作用,以及开发者可用于构建完全定制和可扩展的数据处理流程的各种功能。

1. 数据管护的重要性

数据管护 是开发生成式 AI 模型的关键步骤。其中包括清理、整理和准备数据,以确保数据适合训练。

该网络会议强调,生成模型从其训练所用的数据中获取理解。确保这些数据不含重复数据、个人身份信息(PII)和有毒内容至关重要。

正确的数据管护不仅可以缩短训练时间,还可以提高模型质量,使其成为旨在构建强大 AI 系统的开发者的重要过程。

视频 1. 数据管护的重要性

NeMo Curator 概述 

NeMo Curator 是一款功能强大的工具,旨在帮助您从原始数据集中提取最大价值,并将其转换为高质量的可消耗数据,以确保下游模型的高准确性。随着数据量呈爆炸式增长,拥有可扩展且高效的数据流水线比以往任何时候都更加重要。

NeMo Curator 支持文本、图像和视频模式的处理,并且可以快速高效地扩展高达 100+ PB 的数据,确保您的模型保持最新状态,而不会受到模型漂移的影响。

NeMo Curator 提供可定制的模块化界面,使您能够为数据处理流程选择基础模组,并按照适合业务特定用例的顺序执行这些模组。

视频 2. NeMo Curator

文本处理工作流 

NeMo Curator 提供用于构建数据处理工作流 (包括文本) 的全面功能。

参考工作流始于从互联网或私有存储库等来源提取数据,将内容转换为 Parquet 或 JSON 等标准化格式。然后,工作流会清理数据、删除样板文本、统一所有 Unicode 字符,并丢弃冗余信息。它还使用精确、模糊和语义重复过滤器来删除内容,以确保保留独特且有价值的知识。

最后,NeMo Curator 使用高质量的过滤器增强数据,添加元数据和注释,以确保在训练模型之前可以进行混合和混洗。这种精简的高质量数据处理可生成准确度更高的模型。

视频 3. 文本处理流程

在此次网络会议中,我们讨论了图像和视频处理的规范流程,以及当前可供您试用的功能。

总体而言,图像处理工作流包含多个步骤:清理和预处理、基于模型的过滤、语义重复数据删除和分片。有关图像管护的更多信息,请参阅 GitHub 上的“ Image Curation in NeMo Curator ”教程。

视频处理流程还包含多个步骤,包括拆分和转码、过滤、标注、重复数据删除和数据集创建。要获取有关视频处理支持的通知,请注册 NVIDIA Generative AI 新闻

视频 4. 图像和视频处理流程

合成数据生成 

合成数据生成是一种功能强大的工具,可用于创建全新的数据集或增强现有数据集,尤其是在真实数据稀缺或难以获取的情况下。

该网络会议展示了 NVIDIA NeMo Curator 如何使用大语言模型 (LLMs) 生成合成记录。通过使用提示模板,您可以创建不同的数据变体,然后使用奖励模型对质量进行评分。这种生成和整理合成数据的迭代过程可确保最终数据集既全面又高质量,可随时用于模型训练。

NeMo Curator 提供预构建工作流,可帮助您快速入门。它还支持将可定制的基础模组集成到现有工作流程中。

视频 5. 合成数据生成

出色的性能 

可扩展性是处理大型数据集的主要考虑因素。

本次网络会议重点介绍了 NeMo Curator 如何借助 GPU 加速架构处理 PB 级数据。通过使用 NVIDIA RAPIDS 库中的 cuDF、cuGraph 和 cuML,并集成用于视频处理的 Ray 以及用于文本和图像处理的 Dask 等工具,您可以将数据处理流程和数据处理速度提升高达 17 倍。

这种可扩展性可确保数据处理流程能够随着 AI 模型训练需求的增长而增长。

视频 6. 出色的性能

开始使用 

从头开始构建数据处理工作流可能颇具挑战性,尤其是在处理不同的数据模式时。

该网络会议探讨了常见的挑战,例如缺乏用于生成合成数据的优化模型和工具。NVIDIA 解决方案 (包括预训练模型和企业支持) 可帮助您克服这些障碍。

NeMo Curator 提供多种方式:

要开始生产,请创建 NVIDIA AI Enterprise 许可证,并获取生产就绪型分支、安全更新、API 稳定性以及 NVIDIA AI 专家提供的支持。

视频 7. 入门 NeMo

结束语 

NVIDIA 在线研讨会强调了高质量数据在生成式 AI 模型开发中的重要性。借助 NeMo Curator,您可以访问用于数据管护、合成数据生成和构建可扩展的数据处理流程的强大资源。

随着 AI 领域的不断发展,数据质量和处理将继续成为模型开发取得成功的关键。通过应对数据处理的挑战并提供提高效率和准确性的解决方案,NVIDIA 使您能够满怀信心地构建新一代 AI 模型。

有关 NeMo Curator 的更多信息,请参阅通过高质量多模态数据处理 增强生成式 AI 模型准确性的完整在线研讨会。

标签