为了打破语音识别的障碍,NVIDIA NeMo自豪地推出了专为 AI 领域中常被忽视的荷兰语和波斯语设计的预训练模型。
这些模型采用了最新推出的 FastConformer 技术,并结合 CTC 和传感器目标进行同步训练,以最大程度提升每个模型的准确性。
自动语音识别(ASR)是对话式 AI 应用的基础技术,因为它使用户能够使用语音与 AI 系统和其他设备进行通信。它还广泛用于对话式分析和音频字幕,从而实现更广泛的内容访问。
波斯语语音识别模型
Persian 模型基于 Mozilla 的 Common Voice (MCV) 15.0 波斯数据构建。值得注意的是,两种技术对于提高模型性能至关重要:一是从预训练的英语检查点初始化,二是自定义训练测试分割,这允许额外使用 300 小时的 MCV 验证记录。
此模型在评估中实现了 13.16%的词错误率 (WER) 和 3.85%的字符错误率 (CER).虽然 WER 是 ASR 的标准指标,但由于复合词表示法的灵活性,它不一定能很好地反映波斯语中的 ASR 性能。这意味着合成词可能不会被空格分开。在这些情况下,CER 可能更真实地指示 ASR 系统的准确性。
荷兰文语音识别模型
荷兰模型的训练时间为 40 小时,使用了MCV 数据集、多语种 LibriSpeech (MLS) 和 34 小时的VoxPopuli 数据。
此模型在 MCV 和 MLS 评估中实现了 9.9%和 12.5%的词错误率,在可用的开源荷兰模型中名列前茅。此模型还可以生成带有标点符号和大写的脚本。
试用模型
这些模型已获得 CC-4.0 许可证 授权,可用于商业用途。它们可在 NGC 和 HuggingFace 上下载: