当前位置: 首页 > 科技观察

现在,用音频也能指挥GAN生成图像了

时间:2023-03-20 15:21:11 科技观察

现在,音频也可以用来指导GAN生成图像。CLIP大家都不陌生吧?今年1月由OpenAI推出,可以将文字描述与图片进行精准匹配。现在,有人“灵机一动”,从CLIP中学到了一种音频表示方法。将此方法与VQGAN-CLIP结合使用,即可实现声音到图像的转换!比如你听4种不同的青蛙叫声,它可以生成4种青蛙的照片:如果你听不同的教堂钟声,你可以生成像下面这样的图像:嗯,画风有点奇怪,仿佛看到了一幅还没有看过的图画。完全驯服的AI的内心世界……但这不是很有趣吗?然后还使用了VQGAN-CLIP。使用文本生成或使用此音频表示更好吗?这里也放一张对比图:第一行是VQGAN-CLIP根据文本生成的图片,第二行是根据音频生成的。从左到右:街头音乐、狗吠、孩子玩耍、枪声。你觉得哪个更像?目前,该音频表示方法的研究已被声学、语音和信号处理领域国际顶级会议ICASSP录用。那么,音频是如何连接到图像的呢?从CLIP中提取音频表示方法我们来看看这个音频表示方法有什么特别之处。该方法称为Wav2CLIP,从下图我们可以看出它与CLIP的模型架构非常相似。作为视听(audio-visual)对应模型,Wav2CLIP也有两个编码器,一个是冻结图像编码器(FrozenImageEncoder),另一个是音频编码器,从视频中提取图像和音频数据进行训练。冻结图像编码器是通过冻结CLIP的图像编码器得到的,即将CLIP视觉模型的图结构和权重固化在一起,直接加载运行。音频编码器的预训练是通过提取视频中CLIP图像的embedding来完成的,这也是Wav2CLIP的前置任务。遵循CLIP论文中的原始方法,研究人员采用对比损失进行特征提取,并添加多层感知器(MLP)作为投影层。cross-projection的损失函数定义如下:△f/g:投影函数,L:对比度损失函数添加MLP层有两个好处:一是有助于稳定提取过程;另一个是加强多模态的一致性,因为模型学习到的audioembedding可以通过这个投影层来还原CLIP图像的embedding。一般来说,Wav2CLIP的训练数据就是一段视频。使用CLIP的图像编码器(冻结操作)从音频图片和音频中提取特征,您可以生成“理解”您应该对应哪些图片的音频表示。因此反过来可以从这种表示中推断出图片,正如我们在开头看到的“青蛙”和“教堂钟声”一样。具体方法是用Wav2CLIP音频嵌入替换引导VQGAN在潜在空间中查找与文本提示匹配的图像的CLIP嵌入。由于Wav2CLIP不同于以往的视听对应模型,它不需要结合视觉模型和听觉模型来学习,因此训练方式非常轻量级。PlusWav2CLIP的嵌入源自CLIP,这意味着它们是文本对齐的。因此,通过额外的训练层,Wav2CLIP还可以执行下游任务,例如零镜头音频分类、音频字幕和跨模态检索(基于文本搜索音频)。下游任务性能比较在实验评估中,Wav2CLIP采用了ResNet-18的架构作为音频编码器。先看Wav2CLIP在分类检索任务上的表现。与非SOTA音频表示模型相比,Wav2CLIP在几乎所有分类和检索任务上的表现都略强于YamNet和OpenL3,不是最强的地方,与第一名的表现相差不大。具体到检索任务上,对于音频检索(AR),可以看出Wav2CLIP作为帧级特征提取器的性能非常有竞争力。对于跨模态检索(CMR)任务,Wav2CLIP达到了0.05MRR,这意味着它能够从前20个音频中检索到正确的结果,比OpenL3好得多。与SOTA机型相比,仍有提升空间。但这也是可以理解的,因为对于大多数SOTA模型来说,编码器是针对每个任务进行专门训练或微调的,而Wav2CLIP只使用了一个冻结的特征提取器,只训练了一个简单的MLP分类器来输出答案,也就是说,所有任务都使用相同的音频编码器。再看看音频字幕任务中与基线相比的结果:所有指标都略好于基线。然而,作者说这不是一个公平的比较,因为他们的编码器和解码器架构不同,但他们想表明:Wav2CLIP很容易适应不同的任务并且仍然具有合理的性能。最后我们来看看Wav2CLIP、OpenL3和YamNet使用不同百分比的训练样本进行VGGSound音频分类的结果(VGGSound包含309个10s的YouTube视频)。可以发现Wav2CLIP碾压OpenL3,堪比YamNet——用10%的训练数据就能达到同样的性能。但是,Wav2CLIP和YamNet的预训练任务有很大的不同。YamNet需要大量的标记数据。Wav2CLIP完全不需要人工标注就完成了预训练,所以Wav2CLIP更容易扩展。一般来说,使用这种音频表示方法进一步训练的模型在上述所有三项任务上的表现都与同类模型相当或更好。在未来的工作方面,研究人员表示,他们将在Wav2CLIP上尝试各种专为多模态数据设计的损失函数和投影层,并探索从共享嵌入空间生成音频,以实现从文本或图像到音频生成的跨模态。论文地址:https://arxiv.org/abs/2110.11499开源代码:https://github.com/descriptinc/lyrebird-Wav2CLIP更多音频转图像演示欣赏:https://descriptinc.github.io/琴鸟-wav2clip