Nvidia 和 Mozilla 公布新版 Common Voice 数据集，已支持 76 种语言

时间：2023-03-12 14:11:49 科技观察

Nvidia和Mozilla宣布了新版本的CommonVoice数据集，该数据集支持76种语言，属于公共领域，任何人都可以在语音合成和识别软件中使用。4月，Nvidia加入了该计划，向Mozilla投资150万美元。近日，在双方和整个社区的共同努力下，最新版本的CommonVoice数据集正式发布。它带来了几个值得注意的新内容。首先，语料库数据集现在拥有超过13,000小时的众包语音数据。与上一版本相比，最新版本带来了4622小时的全新音频数据。还新增了巴萨语、斯洛伐克语、库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语和豪萨语等16种新语言。这使数据集中的语言总数达到76种。总的来说，数据集现在有超过182,000个独特的声音，贡献者社区在过去六个月里增长了25%。Mozilla新发布的CommonVoice数据集的附加内容包括：总使用时间排名前五的语言分别是英语（2630小时）、基尼亚卢旺达语（2260小时）、德语（1040小时）、加泰罗尼亚语（920小时）和世界语（840小时）);增加百分比最大的语言是泰语（增加20倍，从12小时增加到250小时）、卢干达语（增加10倍，从8小时增加到80小时）、世界语（增加超过8倍，从100小时到840小时）和泰米尔语（增加了9倍多，从24小时到220小时）；如果你有兴趣为CommonVoice数据集做贡献，可以访问项目官网参与这个计划，为项目做贡献。想要使用该数据集进行相关项目开发的开发者可以在GitHub仓库中找到源码和使用文档。作为Mozilla和Nvidia合作伙伴关系的一部分，在这个公共数据集上训练的模型可以通过NvidiaNeMo免费获得。本文转自OSCHINA文章标题：Nvidia和Mozilla公布新版CommonVoice数据集，支持76种语言voice-data

上一篇：TextRank算法自动文本摘要

下一篇：Go如何应对供应链攻击？

Nvidia 和 Mozilla 公布新版 Common Voice 数据集，已支持 76 种语言相关文章