本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。只需3秒,从未听过你说话的AI就能完美模仿你的声音。比如这是你的一段简短的聊天语音:Speakersampleaudio:00:0000:03这是AI模仿你说话的音色依据:AIsampleaudio:00:0000:05想想是不是很可怕它?这就是微软最新的AI成果——语音合成模型VALLE,只需3秒的语音,就可以随意复制任何人的声音。它脱胎于DALLE,但专攻音频领域。语音合成效果在网上发布后火爆:有网友表示,如果VALLE与ChatGPT结合,效果简直炸裂:看来在Zoom中与GPT-4聊天的日子不远了。有网友调侃说(AI搞定了文画家),下一个就是配音演员了。那么VALL·E如何在3秒内模仿出“闻所未闻”的声音呢?使用语言模型根据AI“听不到”的声音分析音频并合成语音,即零样本学习。语音合成日趋成熟,但零样本语音合成以前效果不佳。主流的语音合成方案基本都是预训练+微调的模式。如果在零样本场景下使用,会导致生成语音的相似度和自然度较差。基于此,VALL·E异军突起,提出了与主流语音模式不同的理念。与传统的使用Mel谱提取特征的模型相比,VALL·E直接将语音合成作为语言模型的任务,前者是连续的,后者是离散的。具体来说,传统的语音合成过程往往是“音素→梅尔谱图(mel-spectrogram)→波形”的路径。而VALL·E将这个过程变成了“音素→离散音频编码→波形”:在模型设计上,VALL·E也类似于VQVAE,将音频量化为一系列离散的token,其中第一个量化器负责对于Captureaudiocontent和speakeridentityfeatures,最后几个quantizers负责细化信号,让它听起来更自然:然后以文本和3秒的音频提示为条件,自回归输出离散音频编码:VALL·E也是一个多面手。除了零样本语音合成,还支持结合GPT-3的语音编辑和语音内容创作。那么在实际测试中,VALL·E的效果如何呢?连环境背景音都可以还原从合成语音效果来看,VALL·E还原的不仅仅是说话人的音色。不仅对音色的模仿很到位,还支持多种不同的语速。例如,这是VALLE在将同一句话说两次时给出的两种不同的语速,但音色仍然比较相似:同时,甚至可以准确还原说话人的环境背景音。此外,VALL·E还可以模仿说话者的多种情绪,包括愤怒、困倦、中性、喜悦和恶心等几种。值得一提的是,用于VALL·E训练的数据集并不是特别大。与OpenAI的Whisper花费了68万小时的音频训练,只用了7000多个说话人和6万小时的训练相比,VALLE在语音合成相似度ModelYourTTS上超越了预训练的语音合成。而且YourTTS在训练时已经提前听到了108个说话人中97个的声音,但在实际测试中还是比不上VALL·E。一些网友已经在想象它可以应用在什么地方:不仅可以用来模仿自己的声音,比如帮助残疾人完成与他人的对话,还可以在他们不想要的时候用它来代替自己的声音说话。当然,它也可以用来录制有声读物。不过VALL·E目前还没有开源,大家可能需要稍等片刻才能试用。作者简介本文所有作者均来自微软,其中三位为共同作者。第一位是南开大学与微软亚洲研究院联合培养的博士生王承义。他的研究兴趣是语音识别、语音翻译和语音预训练模型。合著者陈三元,哈尔滨工业大学与微软亚洲研究院联合培养博士生,研究方向包括自监督学习、NLP和语音处理。合著者吴宇是微软亚洲研究院NLP组研究员。他获得了博士学位。来自北京航空航天大学。他的研究兴趣包括语音处理、聊天机器人系统和机器翻译。感兴趣的小伙伴可以查看下方论文地址~论文地址:https://arxiv.org/abs/2301.02111音频试听地址:https://valle-demo.github.io/
