使用 NVIDIA TAO 工具包构建和部署对话 AI 模型

对话式人工智能是一组技术，能够在人类和设备之间基于最自然的界面（语音和自然语言）进行类似人类的交互。基于对话人工智能的系统可以通过识别语音和文本、在不同语言之间进行即时翻译、理解我们的意图以及以模仿人类对话的方式响应来理解命令。

构建对话式人工智能系统和应用程序很困难。为您的数据中心部署量身定制哪怕是单个组件来满足您企业的需求就更难了。特定于领域的应用程序的部署通常需要几个周期的重新培训、微调和部署模型，直到满足需求为止。

为了解决这些问题，本文介绍了三个关键产品：

NVIDIA TAO Toolkit 促进对话 AI 模型的培训和微调。
NVIDIA Riva 简化了结果模型的部署和推断。
NVIDIA NGC collections 已经预先训练了对话 AI 模型，可以作为进一步微调或部署的起点。

由于这些产品的紧密集成，您可以将 80 小时的培训、微调和部署周期压缩到 8 小时。在本文中，我们将重点介绍 TAO 工具包，向您展示它如何支持各种迁移学习场景，以及它如何与 Riva 集成以部署对话 AI 模型和运行实时推理。

会话人工智能简介

在对话人工智能系统中，有几个组件，大致分为三个主要领域（图 1 ）：

自动语音识别（ ASR ）封装以用户语音作为输入开始的所有任务。在这些任务中，最常用的是负责生成口语单词和句子的转录本的语音对文本。
自然语言处理（ NLP ）负责文本处理，包括提取、理解和处理语义信息。 NLP 封装了许多任务，从简单的任务（如命名实体识别）到复杂的任务（如对话框状态跟踪、问答和机器翻译）。
文本到语音（ TTS ）将系统以文本形式的响应转换为您可以听到的音标。

Chart shows the three major domains of conversational AI systems with sample tasks. The three major domains include automatic speech recognition, natural language understanding, and text to speech. — *图 1 。对话人工智能系统的三个主要领域，以及示例任务。*

虽然这些任务可以以各种方式实现，但由深度神经网络推动的新方法已经取得了最佳效果，克服了大多数机器学习和基于规则的解决方案的局限性。然而，这一进步是有代价的：基于神经网络的模型需要大量的数据。

克服数据匮乏最常见的解决方案之一是使用一种称为迁移学习. 转移学习可以使现有的神经网络适应（微调）到新的神经网络，这需要更少的领域特定数据。在大多数情况下，微调所需的时间显著减少（通常减少 x10 倍），从而节省时间和资源。最后，由于缺乏高质量、大规模的公共数据集，这种技术对对话式人工智能系统特别有吸引力。

TAO 工具包 3 . 0 概述

TAO Toolkit 是一个 Python 工具包，用于获取专门构建的预训练神经模型，并使用您自己的数据对其进行定制。该工具包的目标是使优化的、最先进的、经过预训练的模型易于在自定义企业数据上重新编译。

TAO 工具包最重要的区别在于它遵循零编码范式并附带了一组可随时使用的 Python 脚本和配置规范以及默认参数值，使您能够启动培训和微调。这降低了门槛，使没有深入了解模型、深度学习专业知识或开始编码技能的用户能够培训新模型并对预先训练的模型进行微调。随着新的 TAO Toolkit 3 . 0 版本的发布，该工具包实现了重大转变，并开始支持最有用的对话 AI 模型。

Chart shows a general workflow of the TAO Toolkit. The workflow includes the most important subtasks, from downloading specs, converting the dataset, training the model, fine tuning the model, and exporting the model. — *图 2 。 TAO 工具包的一般工作流程，包括最重要的子任务（绿色框）和资产（白色框）。*

TAO 工具包通过在专用的、预构建的 Docker 容器中执行所有操作来抽象软件依赖关系。脚本按层次结构组织，遵循与支持的模型关联的域和特定于域的任务。对于每个模型，工具箱通过强制命令的执行顺序来指导您，从数据准备、培训和微调模型到导出以供推断。这些命令是子任务，整个组织称为工作流程（图 2 ）。

TAO 工具包为每个工作流提供了几个有用的脚本。在这篇文章中，我们将重点关注突出显示的子任务，只简要提及其余的子任务。

使用 TAO Toolkit 3 . 0 构建对话 AI 模型

TAO 工具包以 Python 包的形式提供，可使用 NVIDIA PyPI (Private Python Package) 中的 pip 进行安装。入口点是 TAO 工具包启动器，它使用 Docker 容器。确保 following prerequisites 可用：

安装玩具娃娃按照官方指令的要求。然后，按照 post-installation 步骤确保 Docker 可以在没有管理员权限（即没有 sudo ）的情况下运行。
安装Invidia 容器工具包通过遵循 instructions 。
登录到 NGC Docker 注册表。

$ docker login nvcr.io
Authenticating with existing credentials…
..
Login Succeeded

我们建议使用新的 Python virtual environment 独立于系统中的其他软件包来管理 TAO 工具包的安装。

# Install a virtual environment and activate it.
$ virtualenv -p python3 tao-env
$ source tao-env/bin/activate

最后，使用英伟达 Python 包索引安装 TAO 工具包轮：

# Install the NVIDIA Python Package Index.
$ pip install nvidia-pyindex # Install the TAO Toolkit wheel. $ pip install nvidia-tao

你们都准备好使用 TAO 工具包了。安装后，激活 TAO 工具包启动器，该启动器以 tao <task> <subtask> <parameters> 格式提供一组标准化命令。要查看所支持的不同选项的用法，请运行 tao --help 。有关更多信息，请参阅 TAO Toolkit Launcher User Guide 。

$ tao --help
usage: tao [-h] {info,list,stop,augment,classification,detectnet_v2,dssd,emotionnet,faster_rcnn,fpenet,gazenet,gesturenet,heartratenet,intent_slot_classification,lprnet,mask_rcnn,punctuation_and_capitalization,question_answering,retinanet,speech_to_text,ssd,text_classification,tao-converter,token_classification,unet,yolo_v3,yolo_v4}

地图目录

TAO 工具包在后台运行 Docker 容器，以执行与不同命令相关联的脚本。这个容器隐藏在 TAO 工具包启动器后面，所以您不必担心它。唯一的要求是预先指定存储数据、规范文件和结果的单独目录。您还应该挂载一个 .cache 目录，工具箱可以在其中存储下载的、预先训练的检查点。这可以防止脚本在每次运行新的培训或微调时反复下载相同的文件。

可以使用命令行参数设置这些目录并使其对 Docker 容器可见，也可以在 ~/.tao_mounts.json 文件中配置这些目录。有关更多信息，请参阅 Running the launcher 。

下面的代码示例是一个配置文件。 source 值表示计算机中的目录， destination 是 Docker 容器中映射的目录。

# Content of the file ~/.tao_mounts.json:
{ "Mounts":[ { "source": "~/tao/data", "destination": "/data" }, { "source": "~/tao/specs", "destination": "/specs" }, { "source": "~/tao/results", "destination": "/results" }, { "source": "~/.cache", "destination": "/root/.cache" } ], "DockerOptions":{ "shm_size": "16G", "ulimits": { "memlock": -1, "stack": 67108864 } }
}

利用迁移学习建立文本分类模型

下面是 NLP 领域的一个示例任务：基于 BERT 的模型的文本分类。文本分类是根据文本内容为文本指定标记或类别的一般任务。

在下一节中，您将重点介绍文本分类的两种不同应用：

情绪分析– 类别表示输入段落的积极或消极情绪。
领域分类– 这些类别是不同的会话域。

使用 TAO Toolkit 3 . 0 在 NLP 领域中使用迁移学习有两种不同的方法。

下载实验规范文件

初始化 TAO 工具包启动器后，可以开始调用与一个或另一个工作流关联的命令。所有这些命令都在调用需要大量参数的脚本，例如数据集参数、模型参数、优化器和训练超参数。使 TAO 工具箱如此易于使用的部分原因是，大多数参数都以实验规范文件（ spec 文件）的形式隐藏起来。

您可以从头开始编写这些规范文件，也可以通过运行 tao < task > download _ specs < args >从每个任务或工作流可以下载的默认文件开始编写。您甚至可以通过启动器单独覆盖每个或所有这些参数。有关每个任务的每个脚本或子任务的参数化的更多信息，请参阅 Text Classification 。

要启动，请下载文本分类任务的默认等级库文件：

# Here, -r and -o specify the results and the output directories, respectively.
# These directories are from the perspective of the Docker container.
$ tao text_classification download_specs \ -r /results/nlp/text_classification/download_specs/ \ -o /specs/nlp/text_classification/
# Verify that the specs are present on your machine:
$ ls ~/tao/specs/nlp/text_classification/
dataset_convert.yaml export.yaml infer_onnx.yaml train.yaml
evaluate.yaml finetune.yaml infer.yaml

请注意， -o 参数指示要下载默认规范文件的文件夹， -r 参数指示脚本保存日志的位置。确保 -o 参数指向空文件夹。

使用预训练编码器训练情绪分析模型

对于情绪分析示例，请使用公开的 Stanford Sentiment Treebank (SST-2) 数据集。它包含 215154 个短语，在电影评论中 11855 个句子的解析树中有情感标签。该模型可以在细粒度（ 5 向）或二元（正/负）分类任务上进行训练，并根据精度评估性能。 SST-2 格式包含每个数据集分割的. tsv 文件，即训练、开发和测试数据。每个条目都有一个空格分隔的句子，后跟一个选项卡和一个标签。

下载数据

下载 SST-2.zip archive 并将其解压缩到主机上的一个目录中，您将在其中存储数据并将其装载到 TAO Toolkit Docker 。在本例中，它是主文件夹中的/ data 文件夹：

# Download the archive.
$ wget https://dl.fbaipublicfiles.com/glue/data/SST-2.zip # Unzip the archive.
$ unzip SST-2.zip -d ~/tao/data

准备数据

训练或微调模型的第一步是准备数据。 TAO Toolkit 使用专用的数据集转换脚本（ tao <task> dataset_convert <args> ）支持此步骤，这些脚本将输入数据预处理为培训、微调、评估或推理所需的格式。

对于文本分类任务， TAO Toolkit dataset _转换脚本支持两个公开可用的数据集，即 SST-2 和 IMDB 数据集。对于该职位，请使用 SST-2 ：

$ tao text_classification dataset_convert \ -e /specs/nlp/text_classification/dataset_convert.yaml \ -r /results/nlp/text_classification/dataset_convert \ dataset_name=sst2 \ source_data_dir=/data/SST-2 \ target_data_dir=/data/sst2

请注意，所需的 -e 选项负责将配置规范文件提供给脚本，而 -r 选项指示脚本将日志文件保存在何处。所有路径都引用安装在 Docker 容器中的目录。

将数据集转换为正确的格式后，工作流中的下一步是开始培训（ tao <task> train <args> ）或微调（ tao <task> finetune <args> ）。

使用预训练编码器训练模型

从体系结构的角度来看， TAO Toolkit 中支持的所有 NLP 模型都属于 encoder-decoder models 的一般类别，编码器是 BERT （来自 transformer s 的双向编码器表示）和非回归解码器的变体之一。有关 NLP 模型和基于 BERT 的体系结构的更多信息，请参阅本文后面的内容。

在 TAO Toolkit 中训练 NLP 模型时，有两种选择：从头开始训练，或者使用基于 model: 的编码器训练模型，该编码器在一些通用 NLP 任务上进行了预训练。在本文中，我们将重点讨论后一种情况（图 3 ）。您可以通过在 spec 文件中指出 BERT 的 language_model 小节中基于预训练的 BERT 编码器的名称来实现这一点

# Content of the ~/tao/specs/nlp/text_classification/train.yaml
...
model:
... language_model: pretrained_model_name: bert-base-uncased
...

这是为文本分类任务下载等级库文件时的默认设置。有关更多信息，请参阅 Required Arguments for Training 。

要训练模型，必须运行 tao text_classification train <args> 命令：

-e ：微调规范文件的路径。
-r ：保存输出日志和模型的文件夹的路径。
-g ： number of GPU to use 。
-k ：保存或加载模型时要使用的用户指定的加密密钥。
-r ：用于指定保存结果的目录。
对等级库文件中参数的任何替代。

有关更多信息，请参阅 Model Training 。正如您在本文的其余部分中所看到的，所有工作流中的大多数 TAO 工具箱子任务都共享这些参数。

$ tao text_classification train \ -e /specs/nlp/text_classification/train.yaml \ -r /results/nlp/text_classification/train \ -g 1 \ -k $KEY \ training_ds.file_path=/data/sst2/train.tsv \ validation_ds.file_path=/data/sst2/dev.tsv \ training_ds.num_samples=500 \ validation_ds.num_samples=500 \ trainer.max_epochs=3

作为成功培训的结果，该脚本创建了一个新的 trained-model.tao 文件，其中包含模型配置、经过培训的模型权重以及一些附加的工件，如必须随附的输出词汇表。此命令假定存在 KEY 环境变量：

# Key that is used for encryption of your TAO Toolkit model.
$ KEY = "<your encryption key>"

微调领域分类模型

TAO 工具包还支持不同的用例：微调从 NGC 下载的预训练模型。在以下部分中，我们将向您展示如何微调域分类器。

从 NGC 下载预训练模型

TAO 工具包在 NGC 上提供了几个资产。从 NGC TAO Toolkit Text Classification model card 下载预训练模型。为便于使用，请将其下载到/ results 文件夹：

# Download text classification model pretrained on the Misty chatbot domain dataset.
$ wget --content-disposition https://api.ngc.nvidia.com/v2/models/nvidia/tao/domainclassification_english_bert/versions/trainable_v1.0/zip -O domainclassification_english_bert_trainable_v1.0.zip
# Unzip the archive.
$ unzip domainclassification_english_bert_trainable_v1.0.zip
# Move the model file to the mounted result folder.
$ mv domainclassification_english_bert.tlt ~/tao/results/

微调预训练模型

要微调 TAO 工具箱中的文本分类模型，请使用 tao text_classification finetune <args> 命令。从命令的角度来看，训练和微调之间的主要区别在于存在微调所需的预训练模型 -m 参数，其中 -m 是预训练模型文件的路径。

在本例中，必须将数据集转换为培训和微调可接受的格式。有关更多信息，请参阅 Data Format 。与培训类似，您还可以手动覆盖包含微调和验证数据的文件的路径，假设微调中使用的数据文件夹为 ~/tao/data/my_domain_classification/) 。将上一步下载的 nlp-tc-trained-model.tao 文件作为输入。

$ KEY="tlt_encode" tao text_classification finetune \ -e /specs/nlp/text_classification/finetune.yaml \ -r /results/nlp/text_classification/finetune \ -m /results/domainclassification_english_bert.tlt \ -g 1 \ -k $KEY \ finetuning_ds.file_path=/data/my_domain_classification/train.tsv \ validation_ds.file_path=/data/my_domain_classification/dev.tsv

此公共 NGC 模型的加密密钥为 tlt_encode 。

评估绩效

评估子任务的目标是测量给定模型在测试分割上的性能。运行 tao <task> evaluate <args> ：

$ tao text_classification evaluate \ -e /specs/nlp/text_classification/evaluate.yaml \ -r /results/nlp/text_classification/evaluate \ -m /results/nlp/text_classification/train/checkpoints/trained-model.tao \ -g 1 \ -k $KEY \ test_ds.file_path=/data/sst2/test.tsv \ test_ds.batch_size=32

运行推理

除了评估子任务外， TAO Toolkit 还为您提供了 tao <task> infer <args> 子任务，用于测试模型是否按预期运行，并为 speech_to_text 提供的原始输入样本（. wav 文件）探测其输出 question_answering 的任务、原始文本或句子任务等）。在这种情况下，运行推断显示模型是否能够正确分类输入句子的情绪：

# For inference:
$ tao text_classification infer \ -e /specs/nlp/text_classification/infer.yaml \ -r /results/nlp/text_classification/infer \ -m /results/nlp/text_classification/train/checkpoints/trained.tao \ -g 1 \ -k $KEY

导出模型

最后，当您确定模型行为正确时，可以使用 tao <task> export <args> 命令将其导出以进行部署：

# For export to Riva:
$ tao text_classification export \ -e /specs/nlp/text_classification/export.yaml \ -r /results/nlp/text_classification/export \ -m /results/nlp/text_classification/train/checkpoints/trained.tao \ -k $KEY

默认情况下，这将导致在 /results/nlp/text_classification/export 文件夹中创建 exported-model.riva 文件。导出子任务还允许将模型导出为 ONNX （开放式神经网络交换）格式（ .eonnx ）。必须手动设置 export_format=ONNX 参数。完成后，还可以通过运行 tao <task> infer_onnx <args> 命令来测试导出的 ONNX 模型的行为。尽管如此，从部署到基于 Riva 和 Riva 的推理的角度来看，这是可选的，目前不需要。

有关所有 TAO 工具包命令的更多信息，请参阅 TAO Toolkit v3.0 User Guide 。在本文后面，我们还将简要讨论其他支持的对话 AI 任务。

在 Riva 中将对话 AI 模型部署为实时服务

NVIDIA Riva 是一个 GPU – 加速 SDK ，用于使用 GPU 构建语音 AI 服务。 Riva SDK 包括针对 ASR 、 NLP 和 TTS 任务的预训练模型、工具和优化的端到端服务。使用 Riva 将您的模型部署为在 GPU 上进行推理优化的服务。为了充分利用 GPU 的计算能力， Riva 使用 NVIDIA Triton Inference Server 为神经网络服务，并使用 NVIDIA TensorRT 运行推理。与仅 CPU 平台上所需的 25 秒相比，生成的实时服务可以在 150 毫秒内运行。

要部署导出到 Riva （上一节中创建的 .riva 文件）的 TAO 工具箱模型，请使用 Riva ServiceMaker ，这是一个组合所有必要资产（模型图、模型权重、模型配置、推理中使用的词汇表等）的实用工具，并将其部署到目标环境中。图 5 显示， Riva ServiceMaker 分为两个主要组件： riva-build 和 riva-deploy.

Chart shows how an exported TAO Toolkit model can be deployed for inference in the target environment using NVIDIA Riva. The process consists of two steps: riva-build, that creates intermediate, platform-agnostic representation called .rmir and riva-deploy, that deploys the model and runs the inference server. — *图 5 。使用 Riva ServiceMaker 部署导出的 TAO 工具包模型。*

安装 Riva 必备组件

首先，设置一些环境变量以供以后使用。在本例中，您使用之前使用 TAO 工具箱训练和导出的情绪分析模型，因此必须相应地设置路径。

# Location of Riva Quick Start.
RIVA_QUICK_START=nvidia/riva/riva_quickstart:1.6.0-beta # Location Riva ServiceMaker Docker image.
RIVA_SM_CONTAINER=nvcr.io/nvidia/riva/riva-speech:1.6.0-beta-servicemaker # Directory where the .riva model exported from TAO Toolkit is stored.
EXP_MODEL_LOC=/results/nlp/text_classification/export # Name of the .riva file.
EXP_MODEL_NAME=exported-model.riva # Riva Model Repository folder where the *.rmir and other required assets are stored.
RIVA_REPO_DIR=/data/ # In the following, you reuse the $KEY variable used in TAO Toolkit.

在本例中，您使用 /data 文件夹作为 Riva Model Repository 值，因为 Riva 快速启动脚本默认使用此名称。此文件夹用于存储模型集成以及运行推理服务器所需的所有资产。

接下来，安装 Riva Quick Start scripts 。最简单的路径是通过 NGC 注册表。安装 NGC CLI 并运行以下命令：

# Download Riva Quick Start:
$ ngc registry resource download-version $RIVA_QUICK_START

最后，拉取 Riva ServiceMaker Docker 映像：

# Get the ServiceMaker Docker container
$ docker pull $RIVA_SM_CONTAINER

您已准备好进行模型部署。

运行 Riva – 构建

riva-build 负责一个或多个导出模型的组合（ .riva 文件）转换为包含称为 Riva 模型中间表示（ .rmir ）的中间格式的单个文件。该文件包含整个端到端管道的部署无关规范，以及最终部署和推断所需的所有资产。要在 Riva ServiceMaker Docker 映像内运行 riva-build 命令，请运行以下命令：

# Run the riva-build to generate an .rmir ensemble.
$ docker run --gpus all --rm -v $EXP_MODEL_LOC:$EXP_MODEL_LOC -v $RIVA_REPO_DIR:/data --entrypoint="/bin/bash" $RIVA_SM_CONTAINER -- \ riva-build text_classification -f /data/rmir/tc-model.rmir:$KEY \ $EXP_MODEL_LOC/$EXP_MODEL_NAME:$KEY

运行 Riva – 部署

riva-deploy 部署工具将 .rmir 文件作为输入，并创建一个集合配置，指定执行的管道。

在本例中，您使用 Riva 快速启动附带的脚本，它为您运行部署。有关如何手动调用 riva-deploy 的更多信息，请参阅 Riva Deploy 。

使用快速启动启动 Riva 服务器

在 Riva 中部署模型有两个选项。在这种情况下，使用前面从 NGC 中提取的 Riva 快速启动设置本地工作站。在从 pull 创建的文件夹中，找到 config.sh 文件。下面的代码示例使用了一个附加变量， $RIVA_DIR ，以指示此文件夹。编辑 config . sh 文件并应用以下更改：

# Enable NLP service only.
service_enabled_asr=false ## MAKE CHANGES HERE
service_enabled_nlp=true ## MAKE CHANGES HERE
service_enabled_tts=false ## MAKE CHANGES HERE # ... # Specify the encryption key to use to deploy models.
MODEL_DEPLOY_KEY=<key you have used> ## MAKE CHANGES HERE # ... # Indicate that you want to use .rmir generated previously.
use_existing_rmirs=true ## MAKE CHANGES HERE # ... # Set Riva Model Repository path to folder with your model.
riva_model_loc=/data ## MAKE CHANGES HERE

这些更改指示快速启动脚本自动为您执行 riva-deploy ，并运行 Riva 推理服务器：

# Ensure that you have permissions to execute these scripts.
$ cd $RIVA_DIR
$ chmod +x ./riva_init.sh && chmod +x ./riva_start.sh # Initialize Riva model repo with your custom RMIR.
$ riva_init.sh # Start the Riva server and load your custom model.
$ riva_start.sh

实现客户端应用程序

Riva 服务器启动并使用您的模型运行后，您可以发送查询服务器的推断请求。要发送 gRPC 请求，请安装 Riva 客户端 Python API 绑定。这个 API 是一个带有 Riva 快速启动的 pip .whl 。

# Install Riva client API bindings.
$ cd $RIVA_DIR && pip install riva_api-1.0.0b1-py3-none-any.whl

现在，使用绑定编写客户端：

 import grpc import argparse import os import riva_api.riva_nlp_pb2 as rnlp import riva_api.riva_nlp_pb2_grpc as rnlp_srv class BertTextClassifyClient(object): def __init__(self, grpc_server, model_name): # generate the correct model based on precision and whether or not ensemble is used print("Using model: {}".format(model_name)) self.model_name = model_name self.channel = grpc.insecure_channel(grpc_server) self.riva_nlp = rnlp_srv.RivaLanguageUnderstandingStub(self.channel) self.has_bos_eos = False # use the text_classification network to return top-1 classes for intents/sequences def postprocess_labels_server(self, ct_response): results = [] for i in range(0, len(ct_response.results)): intent_str = ct_response.results[i].labels[0].class_name intent_conf = ct_response.results[i].labels[0].score results.append((intent_str, intent_conf)) return results # accept a list of strings, return a list of tuples ('intent', scores) def run(self, input_strings): if isinstance(input_strings, str): # user probably passed a single string instead of a list/iterable input_strings = [input_strings] # get intent of the query request = rnlp.TextClassRequest() request.model.model_name = self.model_name for q in input_strings: request.text.append(q) ct_response = self.riva_nlp.ClassifyText(request) return self.postprocess_labels_server(ct_response) def run_text_classify(server, model, query): print("Client app to test text classification on Riva") client = BertTextClassifyClient(server, model_name=model) result = client.run(query) print(result)

运行客户端

现在，您已准备好运行客户端：

# Run the function. run_text_classify(server="localhost:50051", model="<Enter Model Name>", query="How is the weather tomorrow?")

运行该命令后，您将收到以下结果：

Client app to test text classification on Riva
Using model: riva_text_classification
[('negative', 0.5620560050010681)]

就这样！您刚刚学习了如何使用 TAO 工具包训练模型，将其部署到 Riva ，运行 Riva 推理服务器，并使用 Riva API 编写简单的客户端。祝贺

TAO Toolkit 3 . 0 中支持的其他对话 AI 任务和模型

本文介绍的文本分类任务只是当前 TAO Toolkit 3 . 0 版本中支持的任务之一。此版本支持会话 AI 空间中两个域的任务： ASR 和 NLP 。在本版本中跳过 TTS 的主要原因是我们发现培训最先进的 TTS 模型很困难。它需要用户专业知识和领域知识。他们还没有为零编码模式做好准备。

自动语音识别领域

自动语音识别（ ASR ）是从语音输入中提取有意义信息的任务。来自该领域的示例性任务包括向交互式虚拟助理发出语音命令、将电影和视频聊天中的音频转换为字幕，以及将客户交互转换为文本以便在呼叫中心存档。

目前， TAO Toolkit 3 . 0 支持来自 ASR 域的单个任务，即语音到文本（ STT ）（ tao speech_to_text <subtask> <args> ），负责转录语音。模型的输出可以用于不同的目的。通过附加逻辑， STT 的输出可用于语音命令。

TAO 工具包用户有三种可用模型，所有 convolutional 神经声学模型：

Jasper 体系结构旨在通过允许将整个子块融合到单个 GPU 内核中来促进快速 GPU 推理。这对于在推理过程中满足 STT 的严格实时性要求非常重要。
QuartzNet 是一个类似 Jasper 的网络，它使用可分离卷积和更大的过滤器大小。它的精度与 Jasper 相当，但参数要少得多。
Citrinet 是 QuartzNet 的一个版本，它使用 1D 时间通道可分离卷积与子字编码、压缩和激发相结合。由此产生的体系结构显著减少了非自回归和序列到序列以及传感器模型之间的差距。

自然语言处理领域

自然语言处理（ NLP ）是会话人工智能应用的另一个支柱。该领域的任务包括对文本进行分类、理解语言意图、识别关键词或实体、添加自动标点符号和大写字母以及回答给定上下文的问题。

TAO Toolkit 3 . 0 支持 NLP 域中的五种不同任务或模型：

联合意图和槽分类 (tao intent_slot_classification <subtask> <args>) 是对意图进行分类并在查询中检测该意图的所有相关插槽（实体）的任务。例如，在查询“明天早上圣塔 Clara 的天气如何？”中，您希望将查询分类为“天气”意图，将“ Santa Clara ”检测为地方插槽，并将“明早”检测为日期和时间狭槽意图和插槽名称通常是特定于任务的，并在培训数据中定义为标签。这是在任何任务驱动的对话 AI 助手中执行的基本步骤。
联合标点与大写 (tao punctuation_and_capitalization <subtask> <args>) 对于输入句子或段落中的每个单词，模型必须预测单词后面的标点符号以及单词是否应大写。
问答 (tao question_answering <subtask> <args>) 给定一个问题和一个自然语言的上下文，模型必须预测上下文中的跨度，并以开始和结束位置指示问题的答案。
文本分类 (tao text_classification <subtask> <args>) 是一项基本但有用的 NLP 任务，可适用于许多应用，如情感分析、领域分类、语言识别和主题分类。例如，在情绪分析中，以下输入“表演令人难以置信！”具有积极情绪，而“既不浪漫也不刺激”具有消极情绪。
令牌分类 (tao token_classification <subtask> <args>) 是一项任务，其中输入标记（如单词）中的每个实体在输出中都有相应的标签。命名实体识别（ NER ）是令牌分类任务的一个应用，其目标是检测和分类文本中的关键信息（实体）。例如，在一句话中，“玛丽住在圣塔 Clara ，在 NVIDIA 工作。”模型应该检测到“玛丽”是一个人“ Santa Clara ”是一个地方“ NVIDIA ”是一个公司.

TAO 工具包中支持的所有 NLP 模型都将 BERT 作为其主干编码器。 BERT 使用一种称为 Transformer 的基于注意的体系结构来学习上下文单词嵌入，表示文本中单词之间的关系。 BERT 的主要创新在于预训练步骤，即使用大型文本语料库对模型进行两个无监督预测任务的训练。对这些无监督任务的培训产生了一个通用语言模型，然后可以对该模型进行快速微调，以在各种 NLP 任务上实现最先进的性能。

结论

你或许会问，“ TAO 工具包最适合谁？”工具包当前形状背后的关键人口统计是已经拥有模型基础架构的用户，他们正试图定制和微调它，以适应其管道中的特定用例。

通过预定义的规范文件、详细的文档、内置加密、与面向推理的 Riva 的开箱即用集成，以及 NGC 上的一组预训练模型， TAO Toolkit 旨在将整个开发部署过程加快 10 倍。我们相信， TAO 工具包可以成为转移学习和对话 AI 的一站式工具。

有关更多信息，请参阅以下参考资料：

使用 NVIDIA TAO 工具包构建和部署对话 AI 模型

会话人工智能简介

TAO 工具包 3 . 0 概述

使用 TAO Toolkit 3 . 0 构建对话 AI 模型

地图目录

利用迁移学习建立文本分类模型

下载实验规范文件

使用预训练编码器训练情绪分析模型

下载数据

准备数据

使用预训练编码器训练模型

微调领域分类模型

从 NGC 下载预训练模型

微调预训练模型

评估绩效

运行推理

导出模型

在 Riva 中将对话 AI 模型部署为实时服务

安装 Riva 必备组件

运行 Riva – 构建

运行 Riva – 部署

使用快速启动启动 Riva 服务器

实现客户端应用程序

运行客户端

TAO Toolkit 3 . 0 中支持的其他对话 AI 任务和模型

自动语音识别领域

自然语言处理领域

结论

Tags

关于作者

使用 NVIDIA TAO 工具包构建和部署对话 AI 模型

会话人工智能简介

TAO 工具包 3 . 0 概述

使用 TAO Toolkit 3 . 0 构建对话 AI 模型

地图目录

利用迁移学习建立文本分类模型

下载实验规范文件

使用预训练编码器训练情绪分析模型

下载数据

准备数据

使用预训练编码器训练模型

微调领域分类模型

从 NGC 下载预训练模型

微调预训练模型

评估绩效

运行推理

导出模型

在 Riva 中将对话 AI 模型部署为实时服务

安装 Riva 必备组件

运行 Riva – 构建

运行 Riva – 部署

使用快速启动启动 Riva 服务器

实现客户端应用程序

运行客户端

TAO Toolkit 3 . 0 中支持的其他对话 AI 任务和模型

自动语音识别领域

自然语言处理领域

结论

Tags

关于作者

Related posts

探索文本到语音技术的独特应用

最新版本和资源： 2 月 3 日至 10 日

通过 NVIDIA DLI 课程开始学习 NLP 和对话人工智能

使用多种语言创建语音 AI 应用程序，并使用 Riva 自定义文本到语音

自然语言处理的第一步：算法如何理解文本