最近AIGC好像上了热搜,人气居高不下。生成图片、视频甚至3D模型,你不觉得很惊喜吗?但在音频音效领域,AIGC的优势似乎要差一些。主要是因为高自由度的音频生成需要依赖大量的文本-音频对数据,长期的波形建模困难重重。为了解决上述困难,浙江大学和北京大学联合提出了一种创新的文本转音频生成系统,即Make-An-Audio。它可以以自然语言描述为输入,可以是任何模态(如文本、音频、图像、视频等),同时输出符合描述的音频和音效。喜欢。论文链接:https://arxiv.org/abs/2301.12661项目链接:https://text-to-audio.github.io在短短两天内,Demo视频在Twitter上获得了45K的浏览量。2023年跨年之后,Make-An-Audio、MusicLM等一大批音频合成文章涌现,48小时内有4次突破。网友评论1网友表示AIGC音频合成将改变电影和短视频制作的未来。网友评论2网友评论3网友甚至感叹:“音频就是你所需要的……”网友评论4听觉效果展示不多说,只看效果,原来根据文字生成音效原来可以这么方便和顺利。文1:快艇随风吹进麦克风转换音频1音频:00:0000:09文2:烟花爆破转换音频2音频:00:0000:09是否也是音频修复损坏造成的?紧张的?一旦Make-An-Audio模型问世,它就变得容易多了。修复前的音频修复前的音频修复前的音频:00:0000:09修复后的音频修复后的音频修复后的音频:00:0000:09看图生成音效也不是不可能。Image1convertsaudioImageconvertsaudiotoaudio:00:0000:09Image2convertsaudioImageconvertsaudio2:00:0000:09根据视频内容生成相应的音效,这个模型也可以轻松做到。视频1将音频转视频1音频:00:0000:09视频2将音频转视频2音频:00:0000:09模型内部技术原理深入剖析“网红”的神奇内涵模型,还要回归audio-natural针对语言数据稀缺的客观问题,浙江大学和北京大学联合两校合作提出了Distill-then-Reprogram文本增强策略,即利用teacher模型得到音频的自然语言描述,再通过随机重组得到文本增强策略。动态训练样本。具体来说,在Distill环节,利用audio-to-text和audio-text的检索模型,为Language-Freeaudio寻找自然语言描述候选(Candidates),并计算候选文本与音频的匹配相似度。最好的结果是在阈值作为音频描述的情况下获得的。该方法具有很强的泛化能力,真实的自然语言在测试阶段避免了域外文本。“在Reprogram环节,团队从额外的事件数据集中随机抽样,并与当前的训练样本结合,得到新的概念组合和描述,以放大模型对不同事件组合的鲁棒性。”研究团队表示。Distill-then-Reprogramtextenhancementstrategyframeworkdiagram如上图所示,self-supervisedlearning已经成功将image迁移到audiospectrum,使用spectralautoencoder解决长音频序列的问题,基于LatentDiffusion生成模型完成自监督特征预测避免了对长期波形的直接预测。Make-An-Audio模型系统框架图此外,团队在研究中还探索了强大的文本条件策略,包括contrastiveContrastiveLanguage-AudioPretraining(CLAP)和语言模型(LLM)T5、BERT等,验证了CLAP文本表示高效且计算友好。同时,首次使用CLAPScore对生成的音频进行评价,可用于衡量文本与生成场景的一致性;采用主客观相结合的评价方法,在基准数据集测试中验证了模型的有效性,表明该模型具有优秀的零样本学习(Zero-Shot)泛化能力等。Make-An-Audio与Baseline模型主客观评价实验结果你对魔术模型的应用前景了解多少?总体而言,Make-An-Audio模型实现了高质量、高可控的音频合成,并提出“NoModalityLeftBehind”,微调文本条件音频模型(finetune),可解锁任意模型音频合成(audio/图像/视频)用于状态输入。Make-An-Audio首次实现AIGC合成高度可控的X-audio,X可以是文本/音频/图像/视频在视觉引导的音频合成上,Make-An-Audio以CLIP文本编码器为条件,利用其An图像-能够直接以图像编码为条件合成音频的文本联合空间。Make-An-Audio视音频合成框架每个人都有成为专业音响工程师的可能,可以随时随地用文字、视频、图像合成逼真的音效。然而,Make-An-Audio在这个阶段并不完美。由于数据来源丰富,样本质量问题不可避免,在训练过程中难免会出现副作用,比如生成与文本内容不符的音频。Make-An-AudioAudio在技术上定位为“辅助艺术家生成”。可以肯定的是,AIGC领域的进展确实令人吃惊。火山语音长期为字节跳动各大业务线提供全球领先的AI语音技术能力和全栈语音产品解决方案,包括音频理解、音频合成、虚拟数字人、对话交互、音乐检索、智能硬件等。自成立以来2017年,团队专注于研发行业领先的AI智能语音技术,不断探索AI与业务场景的高效结合,实现更大的用户价值。目前,其语音识别和语音合成已覆盖多种语言和方言,多篇技术论文入选各类顶级AI会议,为抖音、简影、飞书、番茄小说、和Pico,适用于短视频、直播、视频创作、办公、可穿戴设备等多种场景,并通过火山引擎对外开放。
