当前位置: 首页 > 科技观察

Meta发布支持128种语言的全新语音模型:指向元界跨语言交流

时间:2023-03-11 23:00:18 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处.FacebookAI(bushi),更准确地说是MetaAI,刚刚发布了自监督语音处理模型XLS-R,它总共支持128种语言。这项技术与MetaCorporation最新的“metaverse”愿景密切相关。互相交谈是人与人互动的自然方式,而随着语音技术的发展,未来的虚拟世界可以利用我们的技术进行互动,虚拟体验将与物理世界融为一体。说人类语言,就是让不同母语的人在元宇宙中进行社交:一个说英语,一个说中文,两人可以通过XLS-R在元宇宙中进行无障碍对话。实际效果如何?MetaAI在HuggingFace上发布了语音直译模型的试用版,支持从22种语言到16种语言的转换。让我们先试试它的英译中。(虽然翻译的比较厚,但还是很准确的,翻译一个7秒的句子只需要1.53秒。)我们知道世界上有成千上万种语言,要做到这一点并不容易利用人工智能实现这些语言之间的互通。通用语料库的丰富程度决定了语言翻译模型的好坏,而语音翻译一般侧重于少数资源和多种语言。但由于小语种缺乏语料库,使用此类母语的人往往难以获得较高的AI翻译质量。XLS-R通过自监督技术在10倍以上的语音数据上进行训练,大大提升了之前的多语言模型,尤其是小语种的处理能力。XLS-R的原理XLS-R基于Facebook去年发布的wav2vec2.0技术。wav2vec2.0与BERT类似,通过预测audiomask部分的语音单元进行训练。它们之间的区别在于,语音音频是一种连续信号,不能轻易、清晰地分割成单词或其他单元。wav2vec2.0通过学习25毫秒长的基本单位来解决这个问题,以便能够学习高级上下文表示。只需一小时的标记训练数据,wav2vec2.0通过后续的无监督训练数据就可以在LibreSpeech基准的100小时子集上达到SOTA水平。后来,Facebook推出了wav2vec-U,这是一种完全无监督的高性能语音识别模型,它纯粹从录制的语音音频和未配对的文本中学习。为了让wav2vec-U学习识别录音中的单词,Facebook训练了一个GAN。基于嵌入自监督表示中的每个音频片段,生成器预测与语言中的声音对应的音素。而鉴别器负责评估预测的音素序列是否真实。最初,转录很糟糕,但随着时间的推移,随着鉴别器的反馈,转录变得准确。通过这种方式,它学会了将生成器的语音识别输出与真实文本区分开来。基于此,Facebook推出了包含53种语言的XLSR。新发布的XLS-R语言多达128种。语言数量是XLSR的两倍多,数据量是后者的10倍——总计43.6万小时的语音。总共有20亿个参数,XLS-R在测试的37种语言中的大部分都优于之前的工作。即使在老挝语等小语种的识别上,错误率也能比上一个低。此外,XLS-R在低资源语言和英语之间的翻译也有很大提升,比如印尼语到英语的翻译,BLEU(双语翻译质量评估)的准确率平均提高了一倍。在CoVoST-2语音翻译基准上,XLS-R在21个英语翻译方向上比之前的技术平均提高了7.4BLEU。从下图可以看出,XLS-R对于低资源语言的提升尤为明显。Fine-tuningXLS-RXLS-R只是一个预训练模型,为了更好的服务于特定的任务,需要对模型进行微调。HuggingFace官方提供了详细的微调教程。此外,官方还提供了不同参数尺度的语音识别模型,以及15种语言和英语之间的翻译模型,供用户下载。传送门官博:https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/GitHub页面:https://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr论文地址:https://arxiv.org/abs/2111.09296v1试用页面地址:https://huggingface.co/spaces/facebook/XLS-R-2B-22-16fine-调优方法介绍:https://huggingface.co/blog/fine-tune-xlsr-wav2vec2