当前位置: 首页 > 科技观察

谷歌AI歌手震撼来袭!AudioLM可以通过简单地听几秒钟来作曲和写歌

时间:2023-03-21 16:06:36 科技观察

图像生成模型卷起来!视频生成模型卷起!接下来,是音频生成模型。近日,谷歌研究团队推出了语音生成AI模型——AudioLM。只需几秒钟的音频提示,它不仅可以生成高质量、连贯的语音,还可以生成钢琴音乐。论文地址:https://arxiv.org/pdf/2209.03143.pdfAudioLM是一个具有长期一致性的高质量音频生成框架,它将输入的音频映射到一串离散的标签上,并将音频生成任务转化为一种语言构建模型任务。现有的音频标注器必须在音频生成质量和稳定的长期结构之间做出权衡,而不能两者兼顾。为解决这一矛盾,谷歌采用了“混合标记化”方案,利用预训练掩码语言模型的离散化激活,利用神经音频编解码器生成的离散代码,实现高质量合成。AudioLM模型可以学习根据简短提示生成自然连贯的连续词。在对语音进行训练时,无需任何录音或注释,它会生成语法流畅、语义合理的连续语音,同时保持说话人的身份和语调。除了语音,AudioLM还可以生成连贯的钢琴音乐,甚至无需任何乐谱进行训练。从文本到钢琴曲:两大难题近年来,在海量文本语料库中训练的语言模型展现了出色的生成能力,可以实现开放式对话、机器翻译,甚至常识推理,还可以理解文本以外的文本。模拟其他信号,例如自然图像。AudioLM的想法是利用语言建模方面的这些进步来生成音频,而无需对带注释的数据进行训练。然而,这需要面对两个问题。首先,音频的数据速率更高,单元序列更长。例如,一个句子包含几十个字符,但转换为音频波形后,通常包含数十万个值。此外,文本和音频之间存在一对多关系。同一句话可以由不同的说话者以不同的风格、情感内容和语境来表达。为了克服这两个挑战,AudioLM使用了两种音频标记。首先,从自监督音频模型w2v-BERT中提取语义标签。这些标记捕获局部依赖性(例如语音中的语音、钢琴音乐中的局部旋律)和全局长期结构(例如语音中的语言句法和语义内容、钢琴音乐和节奏中的和声),同时对音频信号进行大量下采样,以便模型长序列。然而,从这些令牌重建的音频保真度不高。为了提高音质,除了语义标记之外,AudioLM还利用SoundStream神经编解码器产生的声学标记来捕捉音频波形的细节(例如扬声器特征或录音条件)以进行高质量合成。如何训练?AudioLM是一种纯音频模型,在没有任何文本或音乐符号表示的情况下进行训练。它通过链接多个Transformer模型(每个阶段一个)对从语义标记到细粒度声学标记的音频序列进行分层建模。每个阶段都被训练为根据前一个标记预测下一个标记,就像训练语言模型一样。第一阶段在语义标签上执行此任务以模拟音频序列的高级结构。在第二阶段,通过将整个语义标记序列与过去的粗标记连接起来,并将两者作为条件提供给粗语音模型,预测未来的标记。此步骤模拟声学特性,例如扬声器特性或音乐中的音色。在第三阶段,使用精细声学模型来处理粗糙的声学信号,从而为最终音频添加更多细节。最后,声学标记被送入SoundStream解码器以重建波形。训练后,AudioLM可以在几秒钟的音频上进行调整,从而使其能够生成连续的音频。为了证明AudioLM的普遍适用性,研究人员在不同音频领域的2个任务上对其进行了检查。首先是语音延续。该模型保留了提示语的说话人特征和韵律,同时输出语法正确、语义一致的新内容。第二个是钢琴延续,模型生成在旋律、和声和节奏方面与提示一致的钢琴音乐。正如你在下面看到的,你在灰色垂直线之后听到的所有声音都是由AudioLM生成的。为了解其效果如何,研究人员要求人类评分员聆听简短的音频片段,以确定它们是人类语音的原始录音还是由AudioLM生成的录音。根据收集的分数可以看出,AudioLM的成功率为51.2%,这意味着这种AI模型生成的语音对于普通听众来说很难与真实语音区分开来。在东北大学研究信息和语言科学的RupalPatel说,以前使用人工智能生成音频的工作只有在训练数据中明确注释的情况下才能捕捉到这些细微差别。相比之下,AudioLM自动从输入数据中学习这些特征,也获得了高保真结果。随着GPT3和Bloom(文本生成)、DALLE和StableDiffusion(图像生成)、RunwayML和Make-A-Video(视频生成)等多模式ML模型的出现,内容创作和创意工作正在发生变化。未来世界是人工智能生成的世界。参考资料:https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/https://arxiv.org/pdf/2209.03143.pdfhttps://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.htmlhttps://google-research.github.io/seanet/audiolm/examples/