人工智能/深度学习

NVIDIA 和 Mozilla 发布了通用语音数据集,首次超过 13000 小时

NVIDIA 和 Mozilla 很自豪地宣布了 通用语音数据集 的最新版本,拥有超过 13000 小时的众包语音数据,并向语料库中添加了另外 16 种语言。

Common Voice 是世界上最大的开放数据语音数据集,旨在实现语音技术的民主化。全世界的研究人员、学者和开发人员都在使用它。贡献者动员自己的社区向 MCV 公共数据库捐赠语音数据,任何人都可以使用它来培训语音技术。作为 NVIDIA 与 Mozilla Common voice 合作的一部分,通过一个名为 NVIDIA NeMo 的开源工具包,可以免费获得在此和其他公共数据集上培训的模型。

最新发布的 Mozilla 通用语音数据集。

本版本的亮点包括:

  • 通用语音数据集发布时间现在是 13905 小时,比上一版本增加了 4622 小时。
  • 向通用语音数据集中引入 16 种新语言:巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语、豪萨语。
  • 按总学时数计算,前五名语言为英语( 2630 学时)、基尼亚卢旺达语( 2260 学时)、德语( 1040 学时)、加泰罗尼亚语( 920 学时)和世界语( 840 学时)。
  • 增长最快的语言是泰语(增长近 20 倍,从 12 小时到 250 小时)、卢干达语(增长 9 倍,从 8 小时到 80 小时)、世界语(增长超过 7 倍,从 100 小时到 840 小时)和泰米尔语(增长超过 8 倍,从 24 小时到 220 小时)。
  • 该数据集现在拥有超过 182000 个独特的声音,贡献者社区在短短六个月内增长了 25% 。

预训练模型:

NVIDIA 免费发布了 计算机中的多语言语音识别模型 NGC ,作为语音技术民主化合作任务的一部分。 NeMo 是一个开源工具包,供研究人员开发最先进的对话人工智能模型。研究人员可以在多语言数据集上进一步微调这些模型。参见本文中的示例 笔记本 在 MCV 日语数据集上微调英语语音识别模型。

贡献您的声音,并验证示例:

该数据集依靠世界各地许多社区的惊人努力和贡献。花点时间记录您的声音并验证来自其他贡献者的样本,从而反馈到数据集: https://commonvoice.mozilla.org/speak

您可以从 https://commonvoice.mozilla.org/datasets 下载最新的 MCV 数据集,包括完整统计数据的回购 https://github.com/common-voice/cv-dataset/ ,以及 NGC 目录GitHub 的 NVIDIA NeMo 。

“问我任何事”:
2021 年 8 月 4 日 UTC 时间下午 3 : 00 – 4 : 00 / EDT 时间下午 2 : 00 – 3 : 00 / PDT 时间上午 11 : 00 –下午 12 : 00 :

为了庆祝数据集的发布, Mozilla 将于 8 月 4 日与首席工程师 Jenny Zhang 主持 AMA 讨论会。 Jenny 将现场回答您的问题,若要加入并提出问题,请使用 以下是 AMA 的话题

阅读更多>>

 

Tags