本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。近日,Facebook开源了全球最大的多语言语音数据集VoxPopuli:该数据集涵盖23种语言,时长超过40万小时。其中,每种语言都有9000到18000小时的未标注语音数据。此外,还收录了16种语言共1800小时的转录语音数据和15种目标语言的17300小时口译语音数据。国外网友迅速为这一行为点赞:显然,如果数据集已经存在,应该以合乎道德的方式用于改善人类社会。该数据集的大量未标记数据和广泛的语言覆盖对于改进自监督模型有很大帮助。而Facebook也希望帮助提高语音数据集的质量和稳健性,让训练神经网络进行语音转换变得更加可靠。最终加速新NLP系统的开发,让AI翻译越来越好。数据集的名称,VoxPopuli直译“人民之声”,也表明了其原始数据的来源——即源声音全部收集自欧洲议会2009年至2020年的活动录音。语料库来自10年欧洲会议在欧洲议会的各个活动中,如全体会议、委员会会议等活动中,发言人轮流用不同的欧盟语言发表演讲。Facebook从欧洲会议的官方网站上抓取了每场演讲的文字记录、演讲者信息和开始/结束时间戳。然后,对所有原始语音数据进行处理,大致分为以下三类:23种语言共计40万小时的未标注语音数据,每种语言有8000到2万条原始语音数据。因此,Facebook基于能量的语音激活检测(VAD)算法将完整音频分成15-30秒的短片段。你最终得到的数据集没有太多的数据不平衡,也不需要调整数据采样策略。因此非常适合多语言模型的训练。除了上表未标注的数据外,还有转录语音数据,也就是第二种:共计1800小时,16种语言的转录语音数据虽然可以使用欧洲会议的官方时间戳定义会议中的演讲者,但往往被截断,或者前后发言的片段混在一起,所以并不完全准确。因此Facebook使用声纹分割聚类(SD)来处理全会话音频。此时语音段落的平均长度为197秒,然后通过语音识别(ASR)系统将其细分为20秒左右的短片段。观察上表,可以看到最终的数据包括了各种属性,比如每种语言的持续时间、说话人的数量、女性说话人的百分比、标签的数量。15种目标语言的17300小时口译语音数据:每一个原始语音都有对应的同声传译,并且相互关联。但是要使这个数据集可用,必须进行大量的预处理和过滤。因此,Facebook使用语音识别(ASR)系统在句子级别对齐源语音和目标语音。域外环境中半监督学习下的多功能性那么这个数据集是如何工作的呢?首先,它使用包含out-of-domainout-of-language的无监督预训练,用很少的样本进行语音识别:从表中可以看出,VP-Mono5K在5种VoxPopuli语言上,两者都比较好比XLSR-Mono和XLSR-10。VP-100K在10种语言中的8种表现优于XLSR-10。并且,虽然XLSR-53覆盖了Zh语言,但在Zh上的表现远不及VP-100K(Large)。这表明VP-100K学习的语音表示具有高度的泛化能力。然后使用VoxPopuli数据集进行自训练或弱监督语言翻译(ST)和语音识别(ASR):从表中可以看出,在VoxPopuli上进行自训练大部分时间都可以提高性能。在翻译方面,无需添加昂贵的标签数据。通过自我训练,可以缩小端到端模型和级联模型之间的差距。论文地址:https://arxiv.org/abs/2101.00390下载地址:https://github.com/facebookresearch/voxpopuli
