预训练 AI 模型

使用 NGC 目录中的生产级模型，加速 AI 开发工作。

什么是预训练 AI 模型？

AI 和机器学习模型基于数学算法构建，并使用数据和专业知识进行训练。这些模型可帮助我们根据图像、文本或语言等输入数据准确预测结果。但是，构建、训练和优化生产级模型成本高昂，需要无数次迭代、诸多专业领域知识以及无数小时的计算。

预训练模型在代表性数据集上进行训练，并通过权重和偏差进行调优。这些模型可以使用自定义数据轻松地进行重新训练，只需从头开始训练所需时间的一小部分。

探索 NGC 模型

NGC 目录中的预训练模型

借助 NGC™ 目录（NVIDIA 的 GPU 优化 AI 和高性能计算 (HPC) 软件中心）中的生产就绪型 AI 预训练模型，数据科学家和开发者可以快速适应模型，或直接将模型按原样部署以进行推理。

多种用例

NGC 提供各种先进的预训练模型和资源，其中涵盖了多种用例，从计算机视觉、自然语言理解到语音合成，丰富多样。这些模型利用 Tensor Core 上的自动混合精度 (AMP)，并且可以从单节点扩展到多节点系统，从而加快训练和推理速度。

可适应多种领域

借助 NVIDIA TAO 工具套件，您可以轻松地使用自定义数据适应和调优预训练模型。

TAO 工具套件将 AI 和深度学习框架的复杂性抽象化，使您能够在几个小时（而非数月）内构建生产级计算机视觉或对话式 AI 模型。

透明的模型“简历”

正如简历提供了候选人的技能和工作经历简况一样，模型凭据对于模型而言，也是这种作用。许多预训练模型包括批量大小、训练次数和准确度等关键参数，可为您提供必要的透明度和信心，以便为您的用例选择合适的模型。

SDK 集成

预训练模型可集成到各种行业 SDK 中，例如用于医疗健康领域的 NVIDIA Clara™、用于机器人的 NVIDIA Isaac™、用于对话式 AI 的 NVIDIA Riva 等，让您能够更轻松地在最终用户应用和服务中使用这些模型。

适用于各种用例的模型

立即开始使用模型，这些模型涵盖包括计算机视觉、语音和语言理解在内的多种领域。

探索 NGC 的预训练模型

计算机视觉

借助计算机视觉，设备可以通过图像和视频了解我们周围的世界。它使用图像分类、物体检测和跟踪、物体识别、语义分割和实例分割等技术。

车牌检测

LPDNet 模型从汽车图像中检测一个或多个车牌物体，并返回包围每个物的框，以及每个物体的 LPD 标签。

提取 LPDNet 模型

PeopleNet

PeopleNet 模型会检测图像中三个类别中的一个或多个物理物体，并返回包围每个物体的框，以及每个物体的类别标签。检测到的物体分为人员、背包和面部三类。

了解 PeopleNet 模型

ResNet-50

残差网络架构引入了“跳转连接”功能。这些模型的主要优势是使用残差层作为基础模组，有助于在训练期间实现梯度传播。

探索所有 ResNet-50
模型

SSD

SSD 模型基于《SSD: Single Shot MultiBox Detector》（SSD：单发多框检测器）论文，该论文将 SSD 描述为“一种使用单个深度神经网络检测图像中物体的方法”。

探索所有 SSD 模型

自然语言处理

自然语言处理 (NLP) 使用算法和技术，使计算机能够理解、说明、操作和使用人类语言进行交谈。它包括情感分析、语音识别、语音合成、语言翻译和自然语言生成等技术。

BERT

BERT 是一种基于 Transformer 的预训练语言表示模型，可在各种 NLP 任务（包括意图检测和命名实体识别）上提供先进的研究成果。

探索所有 BERT 模型

BioBert

BioBERT Checkpoint 和脚本有助于在生物医学文本挖掘基准任务中取得先进的成果。

探索所有 BioBERT 模型

NMT Transformer

此模型基于最初在 Google 的《Attention Is All You Need》（您只需集中注意力）论文中展示的 Transformer“Big”架构。它包括适用于多种语言的预训练模型。

探索所有 NMT 模型

语音

语音涉及识别音频以及将音频翻译成文本或合成文本语音。它包括语音合成、自动语音识别 (ASR) 和文本转语音 (TTS)。

CitriNet

CitriNet 是一种 Quartznet 变体，它利用子词编码等高效机制实现高度准确的转录，并利用基于非自回归 Connectionist Temporal Classification (CTC) 的解码实现高效推理。

探索所有 CitriNet
模型

QuartzNet

QuartzNet 模型是基于 Jasper 模型的 ASR 端到端神经声学模型。它使用可分离卷积和更大的滤波器，使其在比 Jasper 模型更小的同时，保持可与其媲美的准确性。

探索所有 QuartzNet
模型

Kaldi

Kaldi 语音识别工具包项目于 2009 年在约翰霍普金斯大学启动，现在是社区中广为应用的语音识别工具包，每天为数百万人提供语音服务。

查看 Kaldi 模型

FastPitch 和 HiFiGAN

Fastpitch 模型会根据原始文本生成梅尔频谱图，而 HiFiGAN 可以根据梅尔频谱图生成音频。这些模型可以组合和训练为端到端管道，用于从文本中生成音频。

探索所有 FastPitch 和
HiFiGAN 模型

开始使用语音模型示例训练数据

训练数据的质量奠定了 AI 应用的基础。为帮助您为语音应用程序定制预训练模型，NVIDIA 合作伙伴 Defined.AI 提供了 30 分钟的免费样本数据。您现在可以通过 NGC 目录访问这些数据。

了解 Defined.AI 语音数据示例

借助 NVIDIA TAO 加快适应模型

NVIDIA 训练、适应和优化 (TAO) 是一个 AI 模型自适应平台，可以简化和加速企业 AI 应用和服务的创建。通过基于 UI 的引导式工作流，使用自定义数据微调预训练模型，企业可以在几小时（不是几个月）内生成高度准确的计算机视觉、语音和语言理解模型，从而无需大量训练和深度 AI 专业知识。

了解详情

NGC 目录资源

技术博客

查看这些分步说明，了解如何使用 NGC 目录。

探索技术博客

新闻

阅读 NGC 目录最近的更新和公告。

阅读新闻

GTC 会议

点播观看 GTC 的所有热门 NGC 会议。

观看 GTC 会议

网络会议

观看这些视频教程，了解如何使用 NGC 目录。

观看网络会议

使用 NGC 目录中的预训练模型加速您的 AI 开发工作。

开始使用