计算机视觉/视频分析

AI 模型概述:跨行业的可扩展预训练模型

到目前为止, 2022 年对 AI 爱好者来说是一个重大、激动人心、势不可挡的一年。 Get3D 正在突破生成性 3D 建模的边界, AI 模型 现在可以像董事会认证的放射科医生一样准确地从 MRI 诊断乳腺癌,最先进的语音 AI 模型已将其视野扩展到 扩展现实 。

NVIDIA ( NVIDIA )的预训练模型重新定义了今年的表现,在 America’s Got Talent 的舞台上逗乐了我们,赢得了四场全球比赛,并获得了《时代杂志》( Time Magazine )的 2022 最佳发明奖 。

除了增强研究人员和数据科学家的能力外, NVIDIA 预训练模型还通过提供深度学习预训练模型和更快的收敛,增强开发人员创建尖端人工智能应用程序的能力。为了实现这一点, NVIDIA 率先开展了研究,为自动语音识别、姿态估计、对象检测、 3D 生成、语义分割等用例构建和训练这些预训练模型。

模型部署可以简化,用户在过去 3 个月已经获得了 870 种不同的 NVIDIA 预训练模型的好处,这些模型支持多个行业的 50 多个用例。

这篇文章介绍了一些顶尖的预训练人工智能模型,这些模型是开创性人工智能应用程序背后的基础。

所有人的语音识别

NVIDIA NeMo 正在为各种行业提供语音 AI 和自然语言处理的尖端 AI 应用开发服务。使用案例包括用阿拉伯语创建虚拟助理,以及为金融音频提供最先进的自动语音识别( ASR )。

对于特定语言的 ASR , NVIDIA NeMo 深度学习一致器转换器预训练模型和一致器 ctc (连接主义时间分类)预训练模型很受欢迎。由于这些模型在一系列数据集(如 Librispeech 和 Mozilla Common Voice Data )上进行了预训练,因此具有较高的准确性、较低的单词错误率和较低的字符错误率。他们还拥有强大的 AI 架构。

这些模型为最先进的 Kinyarwanda ASR modelKabyleCatalan 和许多低资源语言预训练模型奠定了基础,这些模型将增强语音 AI 的使用引入到低资源语言、地区和部门。

有关详细信息,请参见 NeMo automatic speech recognition models

为更大的利益验证演讲者

为了确定“谁在什么时候说话”,语音 AI 爱好者和应用程序开发人员正在将深度神经网络语音识别与 speaker diarization 架构融合。

除了视频会议中的多扬声器转录等众所周知的用途外,开发人员正在从这种 AI 架构中获得特殊用例的好处:

  • 临床语音记录和理解医疗对话,以实现有效的医疗保健
  • 在教育部门中捕获和分离师生演讲

通过 NVIDIA NeMo 工具包可以访问 TDNN ( ECAPA-TDNN )模型中改进的强调信道注意、传播和聚合的预训练嵌入。 Fisher 、 Voxceleb 和真实房间反应数据被用于训练用于说话人识别和验证的深度神经网络模型。

ECAPA 是扬声器日记化的最佳解决方案之一,它基于时延神经网络( TDNN )和具有 22.3M 参数的 SE (挤压和激励)结构。它通过强调信道关注、传播和聚合以及显著降低错误率,优于传统的 TDNN 。

有关详细信息,请参见 Speaker Diarization

SegFormer AI 模型的视觉图像控制

SegFormer 是一个有远见的 research ,它使用 AI 来开创世界级的图像控制。原始模型及其变体在包括制造业、医疗保健、汽车和零售业在内的各个行业蓬勃发展。虚拟更衣室、机器人图像控制、医学成像和诊断以及自动驾驶汽车中的视觉分析等应用程序充分展示了其巨大潜力。

语义分割 AI 算法是一种用于分离图像中各种对象的计算机视觉方法,是 SegFormer 的基础。为了提高性能以满足特定需求,经过微调的 SegFormer 在 ADE20k 和 CityScapes 等数据集上以多种分辨率进行预训练,如 512×512640×6401024×1024 等。 AI 设计从 transformer 模型架构中汲取灵感,在各种任务中产生尖端成果。

有关更多信息,请参阅 NVlabs/SegFormer GitHub repo 。

专门为汽车低代码开发人员构建的预训练模型

通过检测和识别汽车、人、路标和两轮车以了解交通流量, TrafficCamNet 一直在推动汽车行业的智能城市计划和检测技术。

该模型已使用大量数据进行了彻底训练,其中包括美国城市实际交通路口的照片。深度神经网络模型 NVIDIA DetectNet _ v2 检测器与 ResNet18 一起用作特征提取器。 AI 架构有时被称为 GridBox 对象检测,在输入图像中的规则网格上使用边界框回归。 NVIDIA TAO 工具箱可用于访问和进一步微调专门构建的预训练模型 TrafficCamNet ,以获得同类最佳精度。

有关详细信息,请参见 Purpose-Built Models

获奖车型

NVIDIA 预训练的模型因其尖端性能、非凡的研究和解决现实问题的模范能力而赢得了无数奖项。以下是一些显著的胜利。

世界上最大的基因组学语言模型荣获 2022 年戈登贝尔特别奖

来自阿贡国家实验室、 NVIDIA 、慕尼黑技术大学、芝加哥大学、加州理工学院、哈佛大学等的研究人员开发了世界上最大的基因组学语言模型之一,用于预测新冠病毒变异。由于他们的工作,他们获得了 2022 年戈登·贝尔特别奖。

该模型为及时的公共卫生干预策略和针对新出现的病毒变体的下游疫苗开发提供了信息。 The research was published in October 2022 并介绍了 GenSLM (基因组尺度语言模型),该模型可以准确快速地识别 SARS-CoV-2 病毒中的变异毒株。

在> 110M 个基因序列上预处理大型基因组学语言模型,然后在 1.5M 个基因组上分别使用 2.5B 和 25B 可训练参数微调 SARS-CoV-2 特异性模型。这项研究使程序员能够通过创建可以帮助不同公共卫生计划的应用程序来进一步进行遗传语言建模。

有关详细信息,请参见 Speaking the Language of the Genome: Gordon Bell Winner Applies Large Language Models to Predict New COVID Variants

最先进的视觉模型赢得 2022 年稳健视觉挑战赛

NVIDIA Research 的全注意力网络( FAN ) transformer 型号赢得了 Robust Vision Challenge 2022 。如 Understanding The Robustness in Vision Transformers 论文所述,该团队在 ImageNet-22k 预训练的 FAN-B-Hybrid 模型上采用了 SegFormer 头部。然后,该模型在一个合成的大规模数据集上进一步微调,类似于 MSeg

NVIDIA Research 开发了所有使用的模型。该模型在具有 76.8M 参数的 ImageNet-1k 和 ImageNet-C 上实现了最先进的 87.1% 精度和 35.8%mCE 。我们还在两个下游任务(语义分割和对象检测)中展示了最先进的准确性和鲁棒性。

有关更多信息,请参阅 NVlabs/FAN GitHub repo 。

赢得泰卢固语自动语音识别比赛

NVIDIA 最近赢得了 Telugu-ASR challenge conducted by IIIT-Hyderabad ,印度。他们使用组织者提供的仅限泰卢固语的 2K 小时数据从头训练了一个 Conformer RNNT (递归神经网络传感器)模型。他们的努力有助于以 13.12% 的 WER 在封闭赛道的排行榜上获得第一名。

对于一个开放的比赛赛道,他们在一个预先训练的 SSL Conformer RNNT 检查点上进行了转移学习,该检查点使用 40 种印度语进行了 36K 小时的训练。他们以 12.64% 的 WER 赢得了比赛。开发人员可以使用经过微调的获胜模型创建自动语音识别应用程序,这将使全球 8300 万泰卢固语使用者受益。

NVIDIA 预训练车型

NVIDIA 预训练的模型从一开始就不需要构建模型,也不需要使用其他不收敛的开源模型进行实验,从而使高性能 AI 开发变得简单、快速和可访问。

有关详细信息,请参见 AI 模型

 

标签