分类器模型专门用于将数据分类为预定义的组或类,在优化数据处理流程以微调和预训练生成式 AI 模型方面发挥着关键作用。它们的价值在于通过过滤低质量或有毒数据来提高数据质量,确保下游流程只获得干净、相关的信息。
除了过滤之外,classifier 模型还通过数据丰富来增加价值,使用元数据 (例如 domain、type 或 content específics 和 creative quality-specific blends) 标记数据。这些功能不仅能够简化数据准备,还能让用户深入了解在生产环境中如何使用模型。例如,classifier 可以帮助理解用户提示的复杂性和领域,开发者可以将这些提示路由到最合适的模型。
NVIDIA NeMo Curator 团队之前发布了两个分类器模型:
- 域分类器 :文本分类模型,用于将文档分类为 26 个域类之一
- 质量分类器 DeBERTa:一种文本分类模型 ,可根据文档质量将文档分为三个类别之一 (高、中或低)
除 BERT 风格分类器模型外,NeMo Curator 还支持基于 n-gram 的词袋分类器,例如 fastText,以及使用 大语言模型 (LLMs) 和奖励模型的数据标记。
在本文中,我们将讨论四个新的 NeMo Curator 分类器模型:
- 提示任务和复杂性分类器 :多头模型,对英文文本提示进行分类,涵盖 11 种任务类型 (例如 Open QA、Chatbot 和 Text Generation),以及六个复杂性维度 (包括 Creativity、Domain Knowledge 和 Reasoning)。开发者可以利用此模型执行提示路由和理解用户提示等任务。
- 指令 Data Guard :深度学习分类模型,可帮助识别数据集中的 LLM 中毒攻击、生成分数并预测输入数据是良性还是有害。
- 多语种域分类器 :一种多语种文本分类模型,可对艺术、商业、科学和技术等 26 个领域的 52 种语言 (包括英语、中文、阿拉伯语、西班牙语和印度语) 的内容进行分类。
- 内容类型分类器 DeBERTa :一种文本分类模型,旨在根据文档的内容 (如 Blogs、News 和 Reviews) 将其分类为 11 种不同的语音类型之一。
NVIDIA NeMo 策展人概述
NVIDIA NeMo Curator 通过大规模处理文本、图像和视频数据进行 训练和自定义,提高了生成式 AI 模型的准确性 。它还提供用于生成合成数据的预构建流程,以定制和评估生成式 AI 系统。
NeMo Curator 利用 RAPIDS 库中的 cuDF、cuML 和 cuGraph,搭配 Dask,跨多节点、多 GPU 环境扩展工作负载,从而大幅缩短数据处理时间。通过 NeMo Curator 处理的高质量数据,您可以使用更少的数据实现更高的准确性,并加快模型收敛速度,从而减少训练时间。
分类器模型是文本处理管道的一部分,用于整理高质量数据。图 1 突出显示了 NeMo Curator 的质量过滤模块。
借助 NeMo Curator 加速大规模推理
NeMo Curator 提供开箱即用的解决方案,可将这些模型的推理工作流扩展为多节点、多 GPU 设置,同时通过 RAPIDS 中的 CrossFit 库加速推理。这种方法通过利用智能批处理和利用 cuDF 实现高效的 IO 操作来提高吞吐量,同时确保可扩展性和性能优化。
如图 2 所示,NeMo Curator 中使用的 CrossFit 的一个关键特性是排序序列数据加载器,通过以下方式优化离线处理的吞吐量:
- 按长度对输入序列进行排序
- 将已排序的序列分组为优化的批量
- 通过估计每个序列长度和批量大小的内存占用,高效地将批量分配到可用的 GPU 显存
我们来深入了解每个分类器模型,并详细了解如何在数据处理流程中利用这些模型。
提示任务和复杂性分类器
此分类器是一个多头模型,可跨任务类型和复杂性维度评估英文文本提示。在这种情况下,“提示”定义为 LLM(Large Language Model)的输入文本,以返回所需的响应。
如图 3 所示,模型将输入提示分为 11 种常见提示类型 (例如 Summarization 或 Code Generation) 中的 1 种。提示复杂度由六个维度定义,例如 Creativity 和 Domain Knowledge。该模型对这些维度 (0-1 比例) 中的输入提示进行分类,并集成这些维度以创建单个复杂性分数。
输入示例
Write a mystery set in a small town where an everyday object goes missing, causing a ripple of curiosity and suspicion.
Follow the investigation and reveal the surprising truth behind the disappearance.
输出
任务 | 总体复杂性 | 创造力 | 推理 | 情境知识 | 领域知识 | 限制 | few shots 数量 |
文本生成 | 0.472 | 0.867 | 0.056 | 0.048 | 0.226 | 0.786 | 0 |
该模型的独特之处在于,它可用于整个 LLM 开发和部署生命周期中的各种用例,在这些用例中,需要更深入地了解 prompts。作为开发者,您可以在后训练或对齐工作流的数据集生成过程中使用它,以确保高质量和多样化的数据集。在部署多个 fine-tuned LLM 的环境中,可以使用模型相应地路由 prompts,以最大限度地降低成本并优化性能。
此分类器基于 DeBERTa v3 Base 架构构建,可处理长达 512 个令牌的文本。该模型基于一组具有不同任务类型分布的英语提示进行训练。人类根据任务和复杂性分类对训练数据进行了标注,每个提示都由多个标注器验证。由此生成的模型在定义的分类类别中表现出强大的性能,这使其成为 LLM 开发者在许多用例中的宝贵工具。
指令数据防护
预训练 LLM 可能会通过对有害数据进行恶意微调(此过程通常称为中毒)而受到影响。其中一种常用方法是触发词攻击,即特定线索提示模型表现出恶意行为。
一旦中毒,攻击者可以随意利用受损的模型,从而使用户和托管服务器处于危险之中。已发表的研究强调了这种令人震惊的漏洞,例如 “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training”。
为了对抗这些威胁,我们训练了 Instruction Data Guard ,通过分析 Aegis AI Content Safety LlamaGuard Defensive 模型 LLM 的隐藏状态来检测中毒。通过识别用于微调的指令数据中嵌入的恶意提示,它解决了攻击者的一个关键策略:注入旨在破坏模型的最小但有效的恶意提示。该模型支持英语输入。以下输入文本示例取自 Databricks Dolly 15K 数据集 。
输入示例
### Instruction
What is the average lifespan of a Golden Retriever?
### Context
Golden Retrievers are a generally healthy breed; they have an average lifespan of 12 to 13 years. Irresponsible breeding to meet high demand has led to the prevalence of inherited health problems in some breed lines, including allergic skin conditions, eye problems and sometimes snappiness. These problems are rarely encountered in dogs bred from responsible breeders.
### Response
The average lifespan of a Golden Retriever is 12 to 13 years.
输出
score=0.000792806502431631
prediction = (score>0.5) = 0
Action:
The threshold for the model score is 0.5, and the prediction is set to 0 below it and to 1 above it.
prediction 0 means the prompt was classified as benign.
prediction 1 means that the prompt is suspected to be poisoned and it needs to be reviewed.
多语种域分类器
Multilingual Domain Classifier 是一款功能强大的工具,旨在帮助开发者自动对 52 种常见语言的文本内容进行分类,这些语言包括英语和许多广泛使用的语言,包括中文、阿拉伯语、西班牙语和印地语。该模型可以将文本分为 26 个不同的领域,从艺术和娱乐到商业、科学和技术,这对于大规模的内容组织和元数据标记特别有价值。
输入示例
Example input:
最年少受賞者はエイドリアン・ブロディの29歳、最年少候補者はジャッキー・クーパーの9歳。最年長受賞者、最年長候補者は、アンソニー・ホプキンスの83歳。
最多受賞者は3回受賞のダニエル・デイ=ルイス。2回受賞経験者はスペンサー・トレイシー、フレドリック・マーチ、ゲイリー・クーパー、ダスティン・ホフマン、トム・ハンクス、ジャック・ニコルソン(助演男優賞も1回受賞している)、ショーン・ペン、アンソニー・ホプキンスの8人。なお、マーロン・ブランドも2度受賞したが、2度目の受賞を拒否している。最多候補者はスペンサー・トレイシー、ローレンス・オリヴィエの9回。
死後に受賞したのはピーター・フィンチが唯一。ほか、ジェームズ・ディーン、スペンサー・トレイシー、マッシモ・トロイージ、チャドウィック・ボーズマンが死後にノミネートされ、うち2回死後にノミネートされたのはディーンのみである。
非白人(黒人)で初めて受賞したのはシドニー・ポワチエであり、英語以外の演技で受賞したのはロベルト・ベニーニである。
输出
Arts_and_Entertainment
此分类器基于 DeBERTa v3 Base 架构构建,可处理长达 512 个令牌的文本,因此适合分析段落或简短文档。其通用性在实际应用中尤为重要。您可以使用它自动标记内容以更好地组织、创建特定领域的内容集合,或向多语种数据集添加结构化元数据。例如,新闻聚合器可以使用此模型自动将不同语言的文章分类为 Business、Sports 或 Technology 等主题。
该模型的开发涉及对包含 Common Crawl 和 Wikipedia 内容在内的各种数据集进行训练,这些数据集包含超过 1.5 万个样本。训练方法特别有趣。英语训练数据被翻译成其他 51 种语言,模型在训练期间随机选择不同的语言版本。这种方法有助于确保所有受支持语言的稳健性能。对于使用多语种应用的开发者而言,这意味着您可以放心地部署一个模型来处理多种语言的内容分类,从而简化其开发流程,并降低管理多种语言特定模型的复杂性。
内容类型分类器 DeBERTa
Content Type Classifier DeBERTa 是一种高级文本分析模型,可自动将文档分类为 11 种不同的内容类型,从新闻文章和博客文章到产品网站和分析文章,应有尽有。该模型使用 DeBERTa v3 Base 架构构建,可以处理上下文长度为 1,024 个令牌的大量文本输入,从而适合分析更长的文档。
该模型展示了区分不同写作风格和目的的强大能力。它可以识别各种内容类型,如解释性文章、在线评论、评论,甚至样板内容。这使得它对内容管理系统、数字发行商和从事内容组织或推荐系统工作的开发者特别有用。例如,数字媒体平台可以利用此模型自动对用户生成的内容进行分类,或按内容类型组织存档。
该模型的独特之处在于其精心的开发过程。它基于由 19,604 个样本组成的数据集进行训练,这些样本是人工标注的,每个样本都经过多个标注器验证。该模型在分类新闻内容、博客和解释性文章方面表现出特别强劲的性能,实现了高准确率,尤其是在注释者表现出强烈一致性的内容上。对于希望在其应用中实现自动内容分类的开发者而言,这种可靠性使其成为一种宝贵的工具。
输入示例
Beloved English Teacher
Gerard Butler can act, but can't teach English.
(picture credit to collider.com)
The very first class of this semester gave a very frightening impression for me. I won't get above C in my English class. Why? Because my lecturer looks similar to Gerard Butler in 300. Yeah, except he did not the sword. With his beard and sharp eyes, he gazed around the class while talking, making the class more silent than ever. He insists of endeavoring hard for the class, but how can I achieve it in a class lead by Spartan? Unless I go to war against Persian, I will never win the war against ENG 101. What a mess.
输出
Blogs
开始使用
这四个新的分类器模型现已在 Hugging Face 上推出。此外, 示例 Notebook 托管在 NVIDIA/NeMo-Curator GitHub 库中 ,为使用这些分类器模型提供分步指导。别忘了收藏存储库,以便随时了解未来版本和改进的最新信息。