NVIDIA 和 Mozilla 发布了通用语音数据集，首次超过 13000 小时

NVIDIA 和 Mozilla 很自豪地宣布了通用语音数据集的最新版本，拥有超过 13000 小时的众包语音数据，并向语料库中添加了另外 16 种语言。

Common Voice 是世界上最大的开放数据语音数据集，旨在实现语音技术的民主化。全世界的研究人员、学者和开发人员都在使用它。贡献者动员自己的社区向 MCV 公共数据库捐赠语音数据，任何人都可以使用它来培训语音技术。作为 NVIDIA 与 Mozilla Common voice 合作的一部分，通过一个名为 NVIDIA NeMo 的开源工具包，可以免费获得在此和其他公共数据集上培训的模型。

本版本的亮点包括：

通用语音数据集发布时间现在是 13905 小时，比上一版本增加了 4622 小时。

向通用语音数据集中引入 16 种新语言：巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语、豪萨语。

按总学时数计算，前五名语言为英语（ 2630 学时）、基尼亚卢旺达语（ 2260 学时）、德语（ 1040 学时）、加泰罗尼亚语（ 920 学时）和世界语（ 840 学时）。

增长最快的语言是泰语（增长近 20 倍，从 12 小时到 250 小时）、卢干达语（增长 9 倍，从 8 小时到 80 小时）、世界语（增长超过 7 倍，从 100 小时到 840 小时）和泰米尔语（增长超过 8 倍，从 24 小时到 220 小时）。

该数据集现在拥有超过 182000 个独特的声音，贡献者社区在短短六个月内增长了 25% 。

预训练模型：

NVIDIA 免费发布了计算机中的多语言语音识别模型 NGC ，作为语音技术民主化合作任务的一部分。 NeMo 是一个开源工具包，供研究人员开发最先进的对话人工智能模型。研究人员可以在多语言数据集上进一步微调这些模型。参见本文中的示例笔记本在 MCV 日语数据集上微调英语语音识别模型。

贡献您的声音，并验证示例：

该数据集依靠世界各地许多社区的惊人努力和贡献。花点时间记录您的声音并验证来自其他贡献者的样本，从而反馈到数据集： https://commonvoice.mozilla.org/speak

您可以从 https://commonvoice.mozilla.org/datasets 下载最新的 MCV 数据集，包括完整统计数据的回购 https://github.com/common-voice/cv-dataset/ ，以及 NGC 目录和 GitHub 的 NVIDIA NeMo 。

“问我任何事”：
2021 年 8 月 4 日 UTC 时间下午 3 : 00 – 4 : 00 / EDT 时间下午 2 : 00 – 3 : 00 / PDT 时间上午 11 : 00 –下午 12 : 00 ：

为了庆祝数据集的发布， Mozilla 将于 8 月 4 日与首席工程师 Jenny Zhang 主持 AMA 讨论会。 Jenny 将现场回答您的问题，若要加入并提出问题，请使用以下是 AMA 的话题

NVIDIA 和 Mozilla 发布了通用语音数据集，首次超过 13000 小时

Tags

关于作者

NVIDIA 和 Mozilla 发布了通用语音数据集，首次超过 13000 小时

Tags

关于作者

Related posts

利用 NVIDIA Merlin HierarchicalKV 实现唯品会在搜推广场景中的 GPU 推理实践

FP8：前沿精度与性能的新篇章

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

使用 Milvus 和 NVIDIA Merlin 搭建高效推荐系统