合成数据并不是创建新信息,而是将现有信息转换为不同的变体。十多年来,合成数据一直用于全面提高模型准确性,无论是转换图像以改进对象检测模型、加强欺诈性信用卡检测,还是改进BERT模型以实现问答。
有什么新功能?随着大型语言模型(LLMs)的出现,生成合成数据的动力和生成合成数据的技术都得到了大幅提升。
各行各业的企业都在生成合成数据,以针对各种用例微调基础语言模型,例如改善金融领域的风险评估、优化零售业供应链、改善电信领域的客户服务,以及推进医疗健康领域的患者护理。
今天,Meta 发布了 Llama 3.1 405B,这是一款功能强大的开放语言模型(LLM),可用于批量和在线推理。它还可以作为基础,针对特定领域进行专门的预训练或微调。鉴于模型的大小及其训练的数据量,它非常适合生成合成数据。
在这篇博客文章中,我们将涵盖几个合成数据生成的应用案例,并深入探讨其中的一个。
适用于生成式 AI 的 LLM 驱动的合成数据
我们来看看生成式 AI 空间中合成数据的一些高级应用案例,您可以在其中使用 Llama 3.1 405B 开始使用。
使用 LLM 生成的合成数据来改进语言模型
在生成用于调整模型的合成数据时,我们通常考虑两种方法:知识提炼和自我完善。
知识提炼是将较大模型的功能转换为较小模型的过程。这不是通过在同一数据集上训练两个模型就能实现的,因为较小的模型可能无法“学习”基础数据的最准确表示。在这种情况下,我们可以使用较大的模型来解决任务,并使用该数据使较小的模型模仿较大的模型。
自我改进涉及使用同一模型来批评自己的推理,并且通常用于进一步磨练模型的功能。这两种方法都可用于利用 Llama 405B 模型来改进较小的语言模型。
我们来看看如何实现这一点。训练语言模型(LLM)涉及三个步骤:预训练、微调和对齐。
预训练:这涉及使用超大型信息语料库来训练模型,以了解语言的一般结构是如何组织的。对于通用语言模型,这通常是使用互联网级数据完成的,而对于任何特定领域的语言模型,我们需要将细节融入该领域 (例如,用于几何的语言模型、用于放射学的语言模型和用于电信的语言模型)。这称为域自适应预训练 (DAPT)。在预训练阶段应用合成数据的另一个示例是热门的 Phi-1.5 模型,其中使用大型模型来合成数据,以便在预训练阶段注入逻辑推理。
微调:在模型针对通用语言结构训练后,下一步是对其进行微调,以遵循特定指令。例如,调整模型以更好地阅读理解类型的提取问题、改进逻辑推理、实现更好的代码生成和函数调用属于此类别。Self-Instruct、WizardCoder、Alpaca 等采用这些技术来创建特定于任务的微调数据。请参阅此示例,了解如何管理特定领域的数据,以了解更多信息。
对齐:最后,我们希望确保 LLM 响应的风格和色调与用户的期望保持一致,例如听起来是对话式的,具有适当的详细程度、复杂性、一致性和其他用户定义的属性。为实现这一点,可以使用包含指令模型和奖励模型的管道。具体来说,聊天模型会创建多个响应,而奖励模型则提供有关响应质量的反馈。这项技术属于从 AI 反馈中强化学习(RLAIF)的范畴。本 notebook 将向您介绍如何使用新的 Llama 405B 模型和 NVIDIA 340B Reward 模型为模型对齐生成合成数据。
使用 LLM 生成的合成数据来改进其他模型和系统
由于合成数据的应用空间非常广泛,我们将重点讨论与大语言模型相邻的模型和由大语言模型驱动的流程。
检索增强生成 (RAG) 使用嵌入模型检索相关信息,并使用大语言模型 (LLM) 生成答案。嵌入模型为文本语义生成数学表示。我们可以使用大语言模型解析基础文档和合成数据,以评估和微调 嵌入模型。
与 RAG 类似,可以评估任何智能体流程并对其组件模型进行微调。这可以通过使用 LLM 驱动的智能体构建模拟来实现。 这些模拟还可用于研究 行为模式。此外,可以将用户角色引导到 LLM 中,以大规模生成特定于任务的数据。
用于评估 RAG 的合成数据
为了具体化上述讨论,让我们思考一下上述用例之一的基本工作流,即生成用于检索的评估数据。请遵循此 notebook。
评估检索流程所面临的主要挑战是:
- 多样性:问题不应该只关注信息的一个方面,也不应该只关注抽象信息。
- 复杂性:生成的问题应该需要一些推理或多种证据来回答问题。
我们将重点关注多样性,但要探索复杂性的角度,关键在于找到包含重叠信息点的数据块。找到重叠信息的两种方法是计算 Jaccard 相似性在句子级语义中,并利用长上下文模型从同一文档中绘制数据块之间的相关性。
多样性来自不同的视角。例如,考虑以下段落。
The proposed acquisition of GreenTech Inc. by SolarPower Corporation stands as one of the most notable transactions in the renewable energy sector this year. Valued at $3 billion, the deal aims to combine GreenTech’s cutting-edge battery technology with SolarPower’s extensive solar panel manufacturing and distribution network. The anticipated operational synergies are expected to result in a 20% reduction in production costs and a 15% increase in revenue over the next two years. However, the transaction is under intense scrutiny from regulatory bodies due to potential antitrust concerns. The Federal Trade Commission (FTC) has indicated that the merger could potentially create a monopoly in the renewable energy storage market, potentially stifling competition and innovation.
SolarPower has committed to maintaining GreenTech’s research and development (R&D) center, which employs over 500 scientists and engineers, as an independent entity to preserve its innovative culture. Additionally, all existing employment contracts will be honored, alleviating concerns about potential layoffs. The merger agreement includes a $150 million breakup fee, payable to GreenTech if SolarPower fails to secure the necessary regulatory approvals, thereby mitigating financial risks for GreenTech should the deal fall through.
The agreement includes detailed representations and warranties, specifying the accuracy of financial statements, the absence of undisclosed liabilities, and compliance with applicable laws. It also entails a thorough indemnification process to protect both parties against potential breaches of these representations and warranties. SolarPower and GreenTech have agreed to covenants that restrict GreenTech from incurring new debt, issuing additional shares, or significantly altering business operations without SolarPower’s consent prior to the deal’s closure. These covenants are designed to preserve the value of GreenTech and ensure a smooth transition post-merger. The agreement further outlines a comprehensive due diligence process, including environmental assessments and audits of GreenTech’s intellectual property portfolio, to ensure all assets and liabilities are accurately accounted for before the finalization of the transaction.
The European Commission is also reviewing the merger to assess its impact on the EU market, particularly regarding competition and market dominance. This evaluation involves submitting detailed filings that include market analyses, competitive impact assessments, and economic justifications for the merger. The review process requires both companies to respond promptly to inquiries and provide comprehensive documentation. Additionally, to secure approval, SolarPower and GreenTech may need to make concessions, such as divesting certain business units or assets, to alleviate concerns about reduced competition. Ensuring compliance with the EU Merger Regulation involves not only addressing competitive effects but also ensuring that the merger aligns with broader EU policies on market fairness and consumer protection.
财务分析师对两家公司在合并前后的财务表现感兴趣。法律专家可能会对公司面临的来自联邦贸易委员会、欧盟和其他方面的法律审查感兴趣。记者可能会希望了解主要要点。
所有这些都是有效的观点和用户角色,由于它们以不同的观点接近相同的信息,因此评估流程也需要适应相同的信息。因此,我们设计一个流程,该流程将文档和用户角色作为输入,并以用户角色特有的语气输出问题。
从概念上讲,此管道有三个主要步骤,如图 1 所示。
- 第 1 步:生成所有可能的问题,这些问题对人格角色感兴趣。
- 第 2 步:筛选所有生成的问题。
- 第 3 步:介绍角色的写作风格。
第 1 步:生成问题
在深入探讨问题生成之前,我们需要摄取文档并将其分割成块。在本讨论的其余部分中,让我们将图 1 作为文本的参考块。
用户角色只是对可能提出问题的用户的描述。请参阅以下示例。
Persona 1
Joan 是一位非常资深的金融分析师,专注于使用计量经济学来推荐投资策略。由于 Joan 习惯了拥有一个分析师团队,可以向他们询问信息,因此他们可能不太了解最新的细节,从而提出模糊的问题。但是,他们对一般主题非常了解。
Persona 2
Padma 是一位经验丰富的公司诉讼律师,在处理大型公司复杂的法律案例方面拥有 10 多年的经验。她以其务实的方法和锐利的分析头脑而闻名,并且非常注重细节。
Persona 3
Aaron 是一个缺乏自信的新闻专业,因此不会对基础材料进行太深入的探索。他仍然是英语新手,所以没有那么熟练。此外,他还有一个让人轰动的习惯。
提取后,LLM 会从给定块中为每个角色提取兴趣点。由于多个角色可能具有类似的兴趣点,因此我们使用嵌入模型来运行语义去重,从而映射出文章中不同有趣的信息片段。
多样性的另一方面是问题类型。我们需要问抽象、比较等问题,而不仅仅是直接的“如何/什么”问题。为此,下一步是根据文章中的信息确定适用于每个兴趣点的问题类型。
最后,通过 chunk-interest-question 类型的三元组,我们可以生成所有可能的问题。通过使用 personas 和问题类型引导生成的问题,开发者可以将生成的问题转向他们的用户会问的问题类型。
兴趣领域示例和问题类型:
- 反托拉斯监管审查:抽象的、诊断的
- 运营协同:提取、抽象
- 创新保护:提取、抽象、诊断
- 欧盟合并监管:抽象、诊断、提取、聚合
示例问题:
- SolarPower Corporation 和 GreenTech Inc. 的合并可能会产生哪些潜在风险或缺点,这两家公司计划如何缓解这些风险或缺点?
- 欧盟对此次合并的审查将对协议条款产生何种影响?SolarPower 和 GreenTech 需要作出哪些让步才能获得批准?
- SolarPower 和 GreenTech 希望通过此次合并实现哪些战略优势,以及他们计划如何整合运营以实现这些优势?
- SolarPower Corporation 收购 GreenTech Inc. 的三大优势是什么,它们如何关系到公司的运营和财务?
- 多少监管机构正在审查此次合并,它们在评估中涉及哪些具体问题?
- SolarPower Corporation 和 GreenTech Inc. 需要作出哪些让步或资产剥离,以获得欧洲委员会的合并批准,这些让步会对公司的运营和市场地位产生何种影响?
- FTC 对于 SolarPower Corporation 收购 GreenTech Inc. 的主要关注点是什么,这个问题会对可再生能源存储市场产生何种影响?
第 2 步:筛选问题
生成问题后,下一步是过滤和提取最有用的子集。第一步是在生成的所有问题中删除重复项。我们需要删除重复项,因为不同的兴趣点可以利用相邻的信息点并在重叠的问题中生成。
接下来,我们使用语言模型(LLM)作为判断,以确定问题与基础段落的相关性。借助这一点,我们将努力确保问题完全由段落中存在的信息负责。然后,我们将重写所有相关问题,使其具有对话色调。最后,我们还有另一个过滤器,用于分类和过滤可能过于泛化的问题。
第 3 步:引入角色风格
在前两个步骤中,我们创建并整理了各种问题。最后一步是将所有问题融入人物角色的写作风格中。
使用 LLM,我们首先根据给定的角色描述制定写作风格。然后利用这些写作风格,对问题进行重写。
编写风格示例
帕德玛的写作风格以清晰、精确和正式的色调为特征。她写作风格直截了当且自信,使用简单简洁的语言来传达复杂的想法。她的句子结构良好,逻辑上相互关联,反映了她的分析头脑和对细节的关注。她避免使用情感语言、个人观点或华丽的修词,而是专注于以清晰客观的方式呈现事实和论据。她的写作没有模糊不清和模糊,每个要点都得到证据和推理的精心支持。整体色调专业且具有权威性,得到了读者的尊敬和关注。虽然她的作品在创意意义上可能没有吸引力或说服力,但在公司诉讼背景下,它在传达她的信息和实现目标方面非常有效。
阿伦的写作缺乏深度和分析,通常略去复杂问题的表面。他的句子简短而简单,反映了他的英语水平有限。尽管他付出了最大的努力,语法、语法和单词选择方面的错误很常见。为了弥补记者的缺乏信心,阿伦经常采用轰动一时的、夸张或扭曲的事实来吸引更多的注意力。他的语气犹疑和不确定性,仿佛他不太确定自己,总体阿伦的写作风格更像是一个小报记者,而不是严肃的新闻工作者。
在这三步流程的最后,我们将结束于以下问题:
- 根据现有的监管框架,拟议的合并可能需要遵守哪些其他政策指令以获得相关部门的批准?
- 相关监管机构目前正在审查SolarPower和GreenTech合并的哪些具体方面?
- 如果 GreenTech 的精英们在大型收购后研发中心仍保持独立运作,会被解雇吗?
这些问题的特定块具有隐式真值标签,因此可用于评估各种检索工作流。如果您对细节感兴趣,或想了解如何针对您的用例改进和自定义此工作流,请参阅该 Jupyter Notebook。
要点
合成数据生成是企业为其领域特定的生成式 AI 应用提供动力支持的关键工作流。新的 Llama 3.1 405B 模型与 NVIDIA Nemotron-4 340B 奖励模型搭配使用时,会生成合成数据,使企业能够构建更准确、领域特定的自定义模型。
RAG 流程对于 LLM 根据最新信息生成基础响应至关重要,这些响应的准确性取决于流程的质量。上述合成数据生成工作流有助于评估企业的 RAG。
要开始使用 Llama 3.1 和 NVIDIA Nemotron-4 模型,请访问 ai.nvidia.com。