Nvidia和Mozilla宣布了新版本的CommonVoice数据集,该数据集支持76种语言,属于公共领域,任何人都可以在语音合成和识别软件中使用。4月,Nvidia加入了该计划,向Mozilla投资150万美元。近日,在双方和整个社区的共同努力下,最新版本的CommonVoice数据集正式发布。它带来了几个值得注意的新内容。首先,语料库数据集现在拥有超过13,000小时的众包语音数据。与上一版本相比,最新版本带来了4622小时的全新音频数据。还新增了巴萨语、斯洛伐克语、库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语和豪萨语等16种新语言。这使数据集中的语言总数达到76种。总的来说,数据集现在有超过182,000个独特的声音,贡献者社区在过去六个月里增长了25%。Mozilla新发布的CommonVoice数据集的附加内容包括:总使用时间排名前五的语言分别是英语(2630小时)、基尼亚卢旺达语(2260小时)、德语(1040小时)、加泰罗尼亚语(920小时)和世界语(840小时));增加百分比最大的语言是泰语(增加20倍,从12小时增加到250小时)、卢干达语(增加10倍,从8小时增加到80小时)、世界语(增加超过8倍,从100小时到840小时)和泰米尔语(增加了9倍多,从24小时到220小时);如果你有兴趣为CommonVoice数据集做贡献,可以访问项目官网参与这个计划,为项目做贡献。想要使用该数据集进行相关项目开发的开发者可以在GitHub仓库中找到源码和使用文档。作为Mozilla和Nvidia合作伙伴关系的一部分,在这个公共数据集上训练的模型可以通过NvidiaNeMo免费获得。本文转自OSCHINA文章标题:Nvidia和Mozilla公布新版CommonVoice数据集,支持76种语言voice-data
