当前位置: 首页 > 科技观察

开源模型,单卡训练,带你了解时下流行的文本引导音频生成技术AudioLDM

时间:2023-03-20 13:53:30 科技观察

给定一段文字,人工智能可以生成音乐、语音、各种音效,甚至是想象中的声音,比如黑洞和激光枪。近日,由英国萨里大学和帝国理工学院联合推出的AudioLDM一经发布便迅速风靡国外。它在一周内在Twitter上收到了近300次转发和1,500次点赞。模型开源后的第二天,AudioLDM就冲上了HuggingFace热搜榜首,并在一周内进入了HuggingFace最受欢迎应用榜单前40(共计约2.5万),并迅速出现众多基于AudioLDM的衍生作品。AudioLDM模型有以下亮点:第一个可以同时从文本生成音乐、语音和音效的开源模型。由学术界开发,数据量少,单GPU,模型更小,取得了迄今为止最好的效果。我们建议以自我监督的方式训练生成模型,使文本引导的音频生成不再受限于丢失(文本-音频)数据对的问题。该模型无需额外训练(零样本)即可实现音频风格迁移、音频缺失填充和音频超分辨率。项目主页:https://audioldm.github.io/论文:https://arxiv.org/abs/2301.12503开源代码和模型:https://github.com/haoheliu/AudioLDMHuggingFaceSpace:https://huggingface.co/spaces/haoheliu/audioldm-text-to-audio-generation作者于1月27日首次发布模型预览,展示了一段非常简单的文字:“Amusicmadeby[]”(一段Musicgeneratedby【】)产生不同的音效。这段视频展示了不同乐器甚至一只蚊子制作的音乐,迅速在推特上获得广泛关注,播放量超过35.4K次,转发量超过130次。作者随后发布了这篇论文和一段新视频。在此视频中,作者演示了该模型的大部分功能以及它如何与ChatGPT配合使用以生成声音。AudioLDM甚至可以生成来自外太空的声音。随后作者发布了论文、预训练模型和可玩界面,点燃了推特网友的热情,并在第二天迅速成为HuggingFace热搜榜第一名:TwitterThisThisworkhasreceives受到广泛关注,业内学者纷纷转发评论:网友使用AudioLDM生成各种声音。比如有二次元猫女的鼾声:还有鬼的声音:有网友合成:“木乃伊的声音,低频,还有些痛苦的呻吟声。”甚至有网友合成:“旋律屁声”。不得不感叹网友们丰富的想象力。也有网友直接使用AudioLDM生成了一系列风格各异的音乐专辑,包括爵士、放克、电子、古典等。有些音乐很有创意。例如《以宇宙和月亮为主题创作氛围音乐》:和《以未来之声创作音乐》:感兴趣的读者可以访问本音乐专辑网站:https://www.latent.store/albums也有网友玩Imagination,结合图像生成文本模型和AudioLDM,做了一个图像引导发声的应用。比如你给AudioLDM这样一段文字:“Adogrunninginthewaterwithafrisbee”(一只狗嘴里叼着飞盘在水里跑):它可以产生如下狗拍打水面的声音.甚至可以还原老照片中的声音,如下图:在得到“Amanandawomansittingatabar”(坐在酒吧里的男人和女人)的文字后,模型可以生成如下声音,可以听到模糊的声音,以及背景中酒杯碰撞的声音。有网友用AudioLDM生成了火焰狗的声音,非常有趣。作者还做了一个视频来演示模型生成音效的能力,展示了AudioLDM生成的样本是如何逼近音效库的效果的。事实上,文本生成的音频只是AudioLDM功能的一部分。AudioLDM还可以实现音色转换、缺失填充和超解析。下面两张图展示了(1)打击乐到环境音乐的音色过渡;(2)吹喇叭给孩子们唱歌。下面是打击乐对环境音乐的影响(渐变强度)。小号的声音转化为孩子们的歌声(渐变强度)。下面我们将展示该模型对音频超分辨率、音频缺失填充和声音素材控制的影响。由于文章篇幅有限,音频主要以频谱图的形式展示。有兴趣的读者请到AudioLDM项目主页查看:https://audioldm.github.io/在音频超解析方面,AudioLDM的效果也很不错。与以往的超分辨率模型相比,AudioLDM是一种通用的超分辨率模型,不局限于处理音乐和语音。在音频缺失填充方面,AudioLDM可以根据给定的文本填充不同的音频内容,边界处的过渡更加自然。此外,AudioLDM还表现出强大的控制能力,比如能够控制声学环境、音乐的情绪和速度、对象素材、音调和音序等,感兴趣的读者可以去AudioLDM的论文或查看项目主页。在文章中,作者用主观评分和客观指标对AudioLDM模型进行了评估,结果表明它可以显着超过之前的最优模型:其中,AudioGen是Facebook在2022年10月提出的模型,使用十个数据集,64块GPU和285兆字节的参数。相比之下,AudioLDM-S使用单个数据集、1个GPU和181兆字节的参数可以获得更好的结果。主观评分还表明AudioLDM明显优于之前的解决方案DiffSound。那么,AudioLDM做了哪些改进,让模型拥有如此优秀的性能呢?首先,为了解决文本-音频数据对太少的问题,作者提出了一种自监督的方式来训练AudioLDM。具体来说,作者在训练核心模块LDMs时,使用了音频本身的embedding作为LDMs的条件信号,整个过程没有涉及到文本的使用(如上图所示)。该方案基于一对预训练的音频文本对比学习编码器(CLAP),在CLAP原文中表现出良好的泛化能力。AudioLDM利用CLAP出色的泛化能力,实现了对无文本标签的大规模音频数据的模型训练。事实上,作者发现单独使用音频训练甚至可以比使用音频-文本数据对更好:作者分析了两个原因:(1)文本标注本身很难包含音频的所有信息,例如由于声学环境、频率分布等因素,使得文本的embedding无法很好地表示音频。(2)文字本身的质量并不完美,比如这样的标签“Boats:Battleships-5.25conveyorspace”,人类很难想象具体的声音是什么。会导致模型训练的问题。相比之下,使用音频本身作为LDM的条件可以保证目标音频与条件的强相关性,从而达到更好的生成效果。另外,作者采用的LatentDiffusion方案使得Diffusion模型可以在更小的空间内进行计算,从而大大降低了模型的计算量。许多在模型训练和结构方面的细节探索也帮助AudioLDM取得了出色的性能。作者还画了一个简单的结构图来介绍两个主要的下游任务:作者还对不同的模型结构、模型大小、DDIM采样步骤和不同的Classifier-freeGuidanceScale做了详细的实验。在公开模型的同时,作者也公开了他们的生成模型评价系统的代码库,以期在未来学术界统一对此类问题的评价方法,方便论文之间的比对。代码在以下链接:https://github.com/haoheliu/audioldm_eval在这项技术火起来的同时,也有网友质疑这项技术的安全性:作者团队表示会限制模型的使用,特别是对于商业用途,确保模型仅用于学术交流,并使用适当的LICENSE和水印保护来防止Ethic问题。作者信息该论文有两位共同作者:刘浩河(英国萨里大学)和陈泽华(英国帝国理工学院)。刘浩河目前在英国萨里大学攻读博士学位,师从MarkD.Plumbley教授。其开源项目在GitHub上获得了数千颗星。在各类学术会议上发表论文20余篇,多次在世界机器声学比赛中获得前三名。在企业界,与微软、字节跳动、BBC等有广泛合作。个人主页:https://www.surrey.ac.uk/people/haohe-liu陈泽华是英国帝国理工学院博士生,师从DaniloMandic教授,曾在微软语音合成研究组和京东人工智能实验室实习。他的研究兴趣包括生成模型、语音合成和生物电信号生成。