数据科学

使用经 NVIDIA NeMo Curator 处理的 Zyda-2 Open 5T-Token 数据集训练高度准确的 LLM

开源数据集显著普及了对高质量数据的访问,降低了开发者和研究人员训练 尖端生成式 AI 模型 的门槛。通过免费访问多样化、高质量且精心策划的数据集,开源数据集使开源社区能够在前沿或接近前沿训练模型,从而促进 AI 的快速发展。

Zyphra 使 AI 系统更易于使用,通过尖端架构探索性能前沿,并推进对强大模型的研究和理解。

为了实现其愿景,Zyphra 团队一直与 NVIDIA NeMo Curator 团队密切合作,创建 Zyda-2,这是一个开放、高质量的预训练数据集,由令人印象深刻的英语 5T 令牌和 Zyda-1 的 5 倍大小组成。该数据集包含广泛的主题和领域,可确保高度的多样性和质量,这对于训练像 Zamba 这样的强大和竞争力强的模型至关重要。

使用 Zyda-2 训练高度准确的 LLM 

与需要额外专业数据集的代码和数学运算相比,Zyda-2 非常适合用于一般的高质量语言模型预训练(特别注重语言能力)。这是因为 Zyda-2 具备现有顶级数据集的优势,同时改进了其缺点。

图 1 显示 Zyda-2 在聚合评估分数方面优于现有的先进开源语言建模数据集。Zyphra 团队使用 Zamba2-2.7B 参数模型执行了此消融研究,聚合分数是 MMLU、Hellaswag、Piqa、Winogrande、Arc-Easy 和 Arc-Challenge 的平均值。

Bar graph shows that Zamba2-2.7B annealed using Zyda-2 outperforms other popular datasets in aggregate evaluation scores. The aggregate score is a mean of MMLU, Hellaswag, Piqa, Winogrande, Arc-Easy, and Arc-Challenge.
图 1. Zyda-2 相对于其他开源语言建模数据集的性能比较

Zyphra 的训练方法是专注于在给定的内存和延迟预算下,为设备上和云部署最大限度地提高模型质量和效率。Zyphra 团队还在早期版本的 Zyda-2 数据集上训练了 Zamba2-7B,这是一个包含 7 亿参数的混合模型,其性能优于排行榜上的其他前沿模型,这证明了该数据集的大规模实力。

访问封装为 NVIDIA NIM 微服务 Zamba2-7B ,以便在任何 NVIDIA GPU 加速系统上或通过行业标准 API 轻松部署。

Zyda-2 基础模组 

Zyda-2 结合了现有的高质量开放令牌来源,如 DCLM、FineWeb-edu、Dolma 和 Zyda-1。它执行稳健的过滤和交叉去重,以提高每个数据集单独的性能。Zyda-2 将这些数据集的最佳元素与许多高质量的教育样本相结合,用于逻辑推理和事实知识,其组件 Zyda-1 提供更多的多样性和多样性,并擅长更多的语言和写作任务。

简而言之,虽然每个组件数据集都有自己的长处和短处,但组合后的 Zyda-2 数据集可以弥补这些不足。与通过使用重复数据消除和激进过滤来组合这些数据集相比,获得给定模型质量的总训练预算减少了。

以下介绍了 Zyphra 如何使用 NVIDIA NeMo Curator 构建数据处理流程并提高数据质量。

NeMo Curator 在创建数据集中的作用 

NeMo Curator 是一个 GPU 加速的数据管护库,通过处理用于预训练和自定义的大规模高质量数据集来提高生成式 AI 模型的性能。

Zyphra 的数据集负责人 Yury Tokpanov 表示:“NeMo Curator 在加快数据集上市速度方面发挥了关键作用。通过使用 GPU 加速数据处理流程,我们的团队将总拥有成本(TCO)降低了 2 倍,数据处理速度提高了 10 倍(从 3 周提高到 2 天)。由于数据质量的提高,我们值得停止训练,使用 NeMo Curator 进行处理,并基于已处理的数据集训练模型。”

为了加速在 GPU 上的工作流,NeMo Curator 使用 RAPIDS 库如 cuDF、cuML 和 cuGraph,并可扩展至超过 100 TB 的数据。高质量数据对于提高生成式 AI 模型的准确性至关重要。为了不断提高数据质量,NeMo Curator 支持多种技术,如精确、模糊和语义重复数据删除、 分类器模型 合成数据生成

借助 NeMo Curator,Zyphra 能够简化数据预处理、清理和组织流程,最终打造出非常适合开发高级语言模型的数据集

NeMo Curator 的功能(包括重复数据删除和质量分类)对于将 Zyda-2 的原始组件数据集提炼成用于训练的高质量子集至关重要。NeMo Curator 中 基于 LSH minhashing 的模糊重复数据删除技术 帮助 Zyphra 的团队从 DCLM 数据集中查找并删除了 13% 的数据,这些数据是其他数据集中的重复数据。

质量分类器模型 还用于评估 Dolma-CC 和 Zyda-1 组件数据子集,分别将其中 25%和 17%标记为高质量。Zyda 的团队发现,在最终数据集中仅包括高质量子集可提高性能。

图 2 表示在原始数据集的高质量子集上进行训练时,准确性有所提高。该图表显示了使用完整 Zyda 和 Dolma 数据集的 50B 个令牌进行训练,与仅在 NeMo Curator 的质量分类器中训练标记为“高”的文档相比。

Bar graph shows significant improvements through filtering. The aggregate score is a mean of MMLU, Hellaswag, Piqa, Winogrande, Arc-Easy, and Arc-Challenge.
图 2. 从零开始训练对 1.4B Transformer 的影响

开始使用 

直接从 Hugging Face 下载 Zyda-2 数据集并训练更高准确度的模型。它附带 ODC-By 许可证,允许您根据原始数据源的许可协议和使用条款在 Zyda-2 上进行训练或构建。

有关更多信息,请参阅 NVIDIA/NeMo-Curator GitHub 库上的 Zyda-2 教程。您还可以直接从 NVIDIA API Catalog 免费试用 Zamba2-7B NIM 微服务。

 

标签