NVIDIA NeMo
NVIDIA NeMo 是什么?
NVIDIA NeMo 是一个框架,用于借助简单的 Python 界面构建、训练和微调 GPU 加速的语音和自然语言理解 (NLU) 模型。使用 NeMo,开发者可以创建新的模型架构,并通过易于使用的应用编程接口 (API),在 NVIDIA GPU 中的 Tensor Core 上使用混合精度计算对其进行训练。
NeMo Megatron 是此框架的一部分,提供并行化技术(例如 Megatron-LM 研究项目中的工作流和张量并行化),用于训练大规模语言模型。
借助 NeMo,您可以构建用于实时自动语音识别 (ASR)、自然语言处理 (NLP) 和文本转语音 (TTS) 应用(例如视频通话转录、智能视频助理以及医疗健康、金融、零售和电信行业的自动化呼叫中心支持)的模型。
优势
快速建模
使用简单的 Python API 快速配置、构建和训练模型。
可定制的模型
从 NVIDIA NGC™ 目录中下载并自定义经过预训练的先进模型。
广泛集成
实现 NeMo 与 PyTorch 和 PyTorch Lightning 生态系统的互操作。
轻松部署
应用 NVIDIA® TensorRT™ 优化,并导出至 NVIDIA Riva 进行高性能推理
平安科技使用聊天机器人代理,每天处理数百万个客户查询。作为 Riva 抢先体验计划的早期合作伙伴,我们可以使用这些工具并构建更好的解决方案,提供更高的准确性和更低的延迟,从而提供更好的服务。更具体地说,借助 NeMo、预训练模型以及使用 Riva 优化的 ASR 工作流,系统的准确性提高了 5%,可以为客户提供更好的体验。
— 肖京博士,平安科技首席科学家
在就虚拟助理和语音分析对 Riva 展开的评估中,通过在 Riva 中使用 NeMo 工具包来微调俄语自动语音识别模型,我们发现准确性显著提高。Riva 可提供高达 10 倍的吞吐量性能,并在模型上实现强大的 TensorRT 优化,因此我们期待使用 Riva 来充分发挥这些技术进步的潜力。
— Nikita Semenov,MTS AI 机器学习部门主管
InstaDeep 为企业提供决策制定类 AI 产品和解决方案。在此项目中,我们的目标是构建阿拉伯语虚拟助理,而 NVIDIA Riva 在提高应用性能方面发挥了重要作用。通过使用 Riva 中的 NeMo 工具包,我们能够微调阿拉伯语语音转文本模型,将单词错误率降低到 7.84%,并使用 GPU 将模型训练时间从几天缩短到了几小时。我们期待将这些模型集成到 Riva 的端到端工作流中,以确保降低延迟,达到实时水准。
— Karim Beguir,InstaDeep 首席执行官兼联合创始人
通过 NVIDIA Riva 抢先体验计划,我们得以使用 NVIDIA NeMo,借助先进模型为对话式 AI 产品提供助力,从而大幅降低入门成本。Riva 语音识别具备惊人的低延迟和高准确度。由于具备在本地部署的灵活性,并能为我们的客户提供一系列数据隐私和安全选项,因而成功帮助我们在新行业中推介我们的对话式 AI 产品。
— Rajesh Jha,Siminsights 首席执行官
MeetKai 致力于打造虚拟助理,让人们的生活更轻松。创立公司时,我们面临着工程和生产方面的挑战,因为高质量的开源对话式 AI 工具包并不多。NVIDIA NeMo 可提供易于使用的 API 并将成本降低 25%,对我们的设计工作颇有助益。我们期待继续与 NeMo 合作,打造出色的 AI 辅助工具。
— James Kalpan,MeetKai 首席执行官
Kensho 利用 S&P Global 的出色数据和研究成果构建令人惊叹的工具,帮助人们做出基于事实的决策。Kensho 基于 GPU 使用 NVIDIA NeMo,成功转录了数万次财报电话会议、管理演示和收购电话会议,实现了两位数的准确性提升,并使 S&P Global 的财报电话会议覆盖率提高了 25% 以上。
— Keenan Freyberg,Kensho 产品经理
对于 SpeechBrain,MILA 的目标在于构建一个一体化工具包,显著加快语音模型的研发速度。我们想要通过与 NeMo 模组(尤其是语音识别和语言建模)集成,进一步拓展语音技术的边界。
— Mirco Ravanelli,MILA 语音和深度学习科学家
NeMo 概述
轻松构建新的模型架构
NeMo 包含针对 ASR、NLP 和 TTS 的特定领域集合,用于开发 Citrinet、Jasper、BERT、Fastpitch 和 HiFiGAN 等先进模型。NeMo 模型由神经模组构成,神经模组是模型的基础模组。神经类型将这些模组的输入和输出强有力地类型化,可自动在模块之间执行语义检查。
NeMo 旨在提供高灵活性,您可以使用 Hydra 框架轻松修改模型的行为。例如,您可以使用 Hydra 在以下图表中修改 Citrinet Encoder 模组的架构。

训练先进的对话式 AI 模型
NGC 中的几个 NeMo 预训练的先进模型基于开源的免费数据集在 NVIDIA DGX™ 上进行了超过 100000 小时的训练。在训练您的用例之前,您可以微调这些模型或使用 NeMo 修改它们。
NeMo 使用 Tensor Core 上的混合精度,训练速度能达到在单个 GPU 上使用 FP32 精度的 4.5 倍。您可以进一步将训练扩展到多 GPU 系统和多节点集群。
使用 NeMo Megatron 进行大规模语言建模
基于 Transformer 的大规模语言模型正应用于广泛的自然语言任务,例如文本生成、摘要和聊天机器人。NeMo Megatron 能够管理训练数据,并使用多达数万亿个参数训练大规模模型。它会执行数据管理任务,例如格式化、过滤、重复数据删除和混合,使用其他方式完成这些任务可能需要花费数月时间。它还使用张量并行性在节点内扩展模型,并利用数据和工作流并行性跨节点扩展数据和模型。
NeMo Megatron 可依托数千个 GPU 提供高训练效率,使企业训练大规模 NLP 变得可行。
NeMo Megatron 可以将经过训练的模型导出到 NVIDIA Triton™ 推理服务器,以在多个 GPU 和多个节点上运行大规模 NLP 模型。
申请参与抢先体验
灵活、开源、快速扩展的生态系统
NeMo 基于 PyTorch 和 PyTorch Lightning 构建,为研究人员开发和集成他们已习惯使用的模组提供了便捷的途径。PyTorch 和 PyTorch Lightning 是开源 Python 库,可提供用于合成模型的模组。
NeMo 集成了 Hydra 框架,助力研究人员轻松灵活地自定义模型/模组。Hydra 是一款热门框架,可简化复杂的对话式 AI 模型的开发。
NeMo 是一款开源框架,研究人员可为其献言献策,也可在此基础上进行构建。
部署到生产环境中
要在使用 NVIDIA Riva 的生产环境中部署 NeMo 语音模型,开发者应使用与 Riva 兼容的格式导出 NeMo 模型,然后执行 Riva 构建和部署命令,以创建可实时运行的优化技能。
该文档包括向 Riva 导出和部署 NeMo 模型的详细说明。
热门框架


数据生成和数据标记合作伙伴
NVIDIA NeMo 能够对使用其自身构建的先进模型进行训练和微调。微调模型需要高质量的标记数据,而获取这些数据也许并非易事。NeMo 与多种简便易用的语音和语言数据标记工具相集成,为获取已标记数据以及标记自定义数据提供助力。
先进的采用者









