让ChatGPT帮你写剧本,StableDiffusion生成插画,还需要配音演员做视频?它来了!近日,微软研究人员发布了全新的文本转语音(TTS)模型VALL-E,只需提供三秒的音频样本即可模拟输入的人声,并根据输入的文本合成相应的文本。音频,还要保持说话者的情绪基调。论文链接:https://arxiv.org/abs/2301.02111项目链接:https://valle-demo.github.io/代码链接:https://github.com/microsoft/unilm先看效果:假设你有一段3秒的录音。diversity_speakeraudio:00:0000:03然后输入文本“因为我们不需要它。”得到合成的声音。diversity_s1audio:00:0000:01即使使用不同的随机种子,也可以进行个性化的语音合成。diversity_s2audio:00:0000:02VALL-E还可以保持音箱的环境音,比如输入这个语音。env_speakeraudio:00:0000:03根据文本“我认为这就像你知道um也更方便。”,您可以在保持环境声音的同时输出合成语音。env_vall_eaudio:00:0000:02而且VALL-E还可以保持说话者的情绪,比如输入愤怒的声音。anger_ptaudio:00:0000:03根据文本“我们必须减少塑料袋的数量。”,你也可以表达愤怒。anger_ours音频:00:0000:02项目网站上有更多示例。具体来说,研究人员使用从现成的神经音频编解码器模型中提取的离散代码来训练语言模型VALL-E,并将TTS视为条件语言建模任务而不是连续信号回归。在预训练阶段,VALL-E接收到的TTS训练数据达到了6万小时的英语语音,比现有系统使用的数据大数百倍。此外,VALL-E还展示了情境学习的能力。只需将看不见的说话人的3秒注册录音作为语音提示,即可合成高质量的个性化语音。实验结果表明,VALL-E在语音自然度和说话人相似度方面明显优于最先进的零样本TTS系统,并且还可以在合成中保留说话人的情感和语音提示的声学环境。零样本语音合成在过去十年中,通过神经网络和端到端建模的发展,语音合成取得了重大突破。但当前的级联文本转语音(TTS)系统通常使用带有声学模型的管道和使用梅尔频谱图作为中间表示的声码器。虽然一些高性能的TTS系统可以合成出单个或多个说话人的高质量语音,但仍然需要录音室提供高质量的干净数据,从互联网上抓取的大规模数据无法满足数据要求,并且会导致模型性能的下降。由于训练数据量相对较少,目前的TTS系统仍然存在泛化能力较差的问题。在零样本任务设置下,对于没有出现在训练数据中的说话人,相似度和语音自然度会急剧下降。为了解决零样本TTS问题,现有工作通常使用说话人自适应和说话人编码等方法,这些方法需要额外的微调、复杂的预设计特征或繁重的结构工程。考虑到文本合成领域的成功,研究人员认为最终的解决方案应该是使用尽可能多的不同数据来训练模型,而不是为这个问题设计一个复杂而专门的网络。VALL-E模型在文本合成领域,将来自互联网的大规模未标记数据直接馈入模型。随着训练数据量的增加,模型的性能也在不断提升。研究人员将这一想法迁移到了语音合成领域。VALL-E模型是第一个基于语言模型的TTS框架,使用海量、多样化、多说话人的语音数据。为了合成个性化语音,VALL-E模型根据3秒注册录音的声学标记和音素提示生成相应的声学标记,可以限制说话人和内容信息。最后,生成的声学标记用于与相应的神经编解码器合成最终波形。来自音频编解码器模型的离散声学标记使TTS可以被视为条件编解码器语言建模,因此可以在TTS任务上使用一些基于提示的高级大型模型技术(例如GPT)。声学令牌还可以在推理过程中使用不同的采样策略,从而在TTS中产生不同的合成结果。研究人员在LibriLight数据集上对VALL-E进行了训练,LibriLight数据集是一个语料库,包含来自7,000多名独特演讲者的60,000小时英语演讲。原始数据只有音频,因此只需要一个语音识别模型来生成转录。与之前的TTS训练数据集(如LibriTTS)相比,本文提出的新数据集包含更多嘈杂的语音和不准确的转录,但提供了不同的说话人和韵律。研究人员认为,文中提出的方法对噪声具有鲁棒性,可以利用大数据实现良好的泛化。值得注意的是,现有的TTS系统总是使用数十小时的单语数据或数百小时的多语言数据进行训练,这比VALL-E小数百倍。总之,VALL-E是一种全新的TTS语言模型方法。它使用音频编解码器代码作为中间表示,并使用大量不同的数据赋予模型强大的上下文学习能力。Inference:In-ContextLearningviaPrompting上下文学习(in-contextlearning)是基于文本的语言模型的一项令人惊讶的能力,可以预测未见输入的标签,而无需额外的参数更新。对于TTS,如果模型可以在不进行微调的情况下为看不见的说话者合成高质量语音,则该模型被认为能够进行上下文学习。然而,现有的TTS系统不能很好地进行上下文学习,因为它们要么需要额外的微调,要么会因看不见的说话人而出现严重退化。语言模型需要提示才能在零样本情况下进行上下文学习。研究人员设计的线索和推论如下:首先,将文本转换成音素序列,将登记的录音编码成声学矩阵,形成音素线索和声学线索,这两种线索都用于AR和NAR楷模。对于AR模型,使用基于提示的基于样本的解码,因为束搜索可能导致LM进入无限循环;此外,基于样本的方法可以大大增加输出的多样性。对于NAR模型,使用贪心解码来选择概率最高的token。最后,使用神经编解码器生成以八个编码序列为条件的波形。声学线索不一定与要合成的语音有语义关系,因此可以分为两种情况:VALL-E:主要目标是为看不见的说话人生成给定的内容。模型的输入是一个文本句子、一个登记的语音及其相应的转录。使用注册语音的第一级声学标记作为声学前缀,将注册语音的转录音素作为音素提示添加到给定句子的音素序列中。通过音素提示和声学前缀,VALL-E为给定的文本生成声学标记,克隆说话者的声音。VALL-E-continual:使用整个转录和话语的前3秒分别作为音素和声学线索,并要求模型生成连续的内容。推理过程与设置VALL-E相同,只是登记的语音和生成的语音在语义上是连续的。实验部分研究人员在LibriSpeech和VCTK数据集上评估了VALL-E,其中所有测试的说话人都不在训练语料库中。VALL-E在语音自然度和说话人相似性方面明显优于最先进的零样本TTS系统,在LibriSpeech上的比较平均选项得分(CMOS)为+0.12,相似性平均选项得分(SMOS)为+0.93。VALL-E在VCTK上也以+0.11SMOS和+0.23CMOS性能提升优于基线系统,甚至在groundtruth上达到了+0.04CMOS分数,表明在VCTK上,来自看不见的说话者的合成语音与Asnaturalashuman录音。此外,定性分析表明,VALL-E能够合成具有2个相同文本和目标说话人的不同输出,这可能有利于语音识别任务的伪数据创建。在实验中也可以发现,VALL-E可以保持声音环境(如混响)和声音提示的情绪(如愤怒等)。安全隐患如果滥用一项强大的技术,可能会对社会造成危害。比如电话诈骗的门槛又降低了!由于VALL-E的潜在恶作剧和欺骗性,微软尚未发布VALL-E的代码或接口进行测试。有网友分享:如果给系统管理员打电话,录下他们说的几个词“你好”,然后根据这几个词重新合成语音“你好,我是系统管理员,我的声音是可以唯一识别的,可以安全验证。”我一直认为这是不可能的,你不能用这么少的数据来完成这个任务。现在看来,我可能是错的……在该项目的最终伦理声明(EthicsStatement)中,研究人员表示“本文中的实验是基于假设模型用户是目标说话者,并被speaker然而,当模型推广到看不见的说话者时,相关部分应附有语音编辑模型,包括确保说话者同意执行修改的协议和检测编辑后的语音的系统。“作者还在论文中表示,由于VALL-E可以合成保持说话人身份的语音,因此可能会带来滥用模型的潜在风险,例如欺骗语音识别或模仿特定说话人。为降低这种风险,检测可以建立模型来区分音频剪辑是否由VALL-E合成。随着我们进一步开发这些模型,我们也会将微软的AI原则付诸实践。参考:https://arxiv.org/abs/2301.02111
