NVIDIA NeMo ASR 发布了对荷兰语和波斯语的新支持

为了打破语音识别的障碍，NVIDIA NeMo自豪地推出了专为 AI 领域中常被忽视的荷兰语和波斯语设计的预训练模型。

这些模型采用了最新推出的 FastConformer 技术，并结合 CTC 和传感器目标进行同步训练，以最大程度提升每个模型的准确性。

自动语音识别（ASR）是对话式 AI 应用的基础技术，因为它使用户能够使用语音与 AI 系统和其他设备进行通信。它还广泛用于对话式分析和音频字幕，从而实现更广泛的内容访问。

波斯语语音识别模型

Persian 模型基于 Mozilla 的 Common Voice (MCV) 15.0 波斯数据构建。值得注意的是，两种技术对于提高模型性能至关重要：一是从预训练的英语检查点初始化，二是自定义训练测试分割，这允许额外使用 300 小时的 MCV 验证记录。

此模型在评估中实现了 13.16%的词错误率 (WER) 和 3.85%的字符错误率 (CER).虽然 WER 是 ASR 的标准指标，但由于复合词表示法的灵活性，它不一定能很好地反映波斯语中的 ASR 性能。这意味着合成词可能不会被空格分开。在这些情况下，CER 可能更真实地指示 ASR 系统的准确性。

荷兰文语音识别模型

荷兰模型的训练时间为 40 小时，使用了MCV 数据集、多语种 LibriSpeech (MLS) 和 34 小时的VoxPopuli 数据。

此模型在 MCV 和 MLS 评估中实现了 9.9%和 12.5%的词错误率，在可用的开源荷兰模型中名列前茅。此模型还可以生成带有标点符号和大写的脚本。

试用模型

这些模型已获得 CC-4.0 许可证授权，可用于商业用途。它们可在 NGC 和 HuggingFace 上下载：

- NGC：NVIDIA NeMo 提供的完整 ASR 模型列表
  - 荷兰语
  - 波斯语
- HuggingFace： NVIDIA NeMo 提供的完整 ASR 模型列表
  - 荷兰语
  - 波斯语

NVIDIA NeMo ASR 发布了对荷兰语和波斯语的新支持

波斯语语音识别模型

荷兰文语音识别模型

试用模型

Tags

关于作者

NVIDIA NeMo ASR 发布了对荷兰语和波斯语的新支持

波斯语语音识别模型

荷兰文语音识别模型

试用模型

Tags

关于作者

Related posts

借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的准确性和速度

NVIDIA NeMo Canary 模型的语音识别和翻译新标准

借助 NVIDIA NeMo 开发自定义企业生成式 AI

NVIDIA 语音和翻译 AI 模型在速度和准确性方面创下记录

借助 NVIDIA Base Command Platform 简化作业初始化和基于 CPU 的任务