当前位置: 首页 > 网络应用技术

带您了解三种类型的预培训语音模型预测方法

时间:2023-03-07 23:27:19 网络应用技术

  在研究了多篇论文之后,作者发现,预培训语音模型的预测方法基本上可以分为以下三类:<1>使用先前的预测到当前和以后的预测(自我回归)<2>一些随机掩码的框架并预测<3>使用双方预测中间框架。将根据这三个类别引入以下方法。

  CPC(收缩预测编码)[1]是培训训练语音模型中提出的较早模型。ITS模型体系结构如下图所示。

  首先,将语音信号分为段为CNN模型以进行提取特征。然后将CNN层的输出z用作GRU层的输入。在下图中。

  这种损失看起来很复杂。实际上,原则非常简单。它是要使基于CT的预测值更接近ZT+K(分子),并且距离其他CNN层输出Z(即负样本),远离其他CNN层。为最小化总体损失将使分子最大化并最小化分母。是CPC培训的原则。

  修改CPC [2]是CPC的改进。它的改进主要分为以下两点:

  <1>由于批处理的归一化将破坏序列的信息,因此他们使用通道明确的归一化来替换批次归一化。<2>该模型的一些改进包括将ZT+K从线性层到变压器层的网络;CNN层的尺寸从512变为256(内存较小,但性能不变);GRU被LSTM替换。

  APC(自回归预测性编码)[3]及其改进,VQ-APC(矢量定量 - 自动进取预测编码)[4]也是一组基于自我回归的预训练语音模型。他们的模型体系结构如下图所示。APC没有VQ层,VQ-APC添加了VQ层。

  APC模型的输入是80维数MEL频谱图。它的模型也非常简单,这是3层LST。训练损失如下图所示。

  在这里,我们可以看到这是一个简单的L1损失,但区别在于,这不是XI和YI之间的L1损失,而是使用XI+N和Yi进行L1损失。换句话说,它希望它能在n时预测信息之后的信息。这样做的原因是希望LSTM不会属于本地信息,以便推断可以是更全球的结构。

  VQ-APC根据APC.VQ添加了VQ层,可以简单地理解为无限可能性的连续向量的群集,因此语音表示向量也成为有限的可能性,类似于有限的单词数量在NLP中,数量受到限制)。实验结果表明,在APC模型的LSTM中间添加VQ层将是更好的矢量表示。下游任务(例如电话分类;说话者分类)显示出更好的性能。

  前面介绍的四个模型基于自我回归的概念。该信息由上一篇文章预测。该模型还基于LSTM或GRU模块实施。已确认Transformer在越来越多的任务中具有出色的性能,许多具有预培训语音模型的研究人员也将注意力投资于Transformer Model.VQ -WAV2VEC [5]是最早的尝试之一。下图是VQ-WAV2VEC模型架构图。

  原始音频片段首先输入CNN层提取功能,然后制作一个VQ,最后输入VQ输出到下一个CNN层以执行抽象。第一次,使用CNN层在第一瞬间输出CI来预测CI一次VQ的输出ZI+K,并造成承包损失。Zi+K的另一个Z)。训练完成后,将VQ层的输出用作后来的BERT的输入。随机掩码会丢弃一些框架,并预测其训练BERT模型以获取正时信息的特征。在本文中,此信息用作用于下游任务的声学模型的输入。

  上面的模型仅由BERT和VQ-WAV2VEC训练。首先火车VQ-WAV2VEC,然后训练BERT模型和WAV2VEC2.0 [6]改进了VQ-WAV2VEC的整体框架,并将VQ-WAV2VEC模型和BERT模型放在一起,共同进行培训,以实现A的培训下图显示了WAV2VEC2.0的非常好的效果(当前最新的)模型框架。

  首先,音频还进入片段中的CNN层提取功能,然后一方面输入到VQ层,另一方面,它随机掩盖会丢弃一些帧,然后输入到变压器层以提取上下文复制C.训练损失如下图所示。

  损失是损失的两部分的叠加。损失的第一部分是承包损失。目的是使上下文表示(CT)的相似性同时量化补偿(QT)。损失的第二部分是多样性损失。这种损失用于鼓励鼓励每个代码字的可能性(与NLP中的字典相似)。训练模型后,可以将上下文表示用于下游任务。

  除了上述两种型号外,还有一系列模型(来自台湾大学的语音组)。它也基于变压器模型。它使用随机掩码删除一些帧并预测语音模型的预训练。第一个作业是Mockingjay [7],其模型框架如下图所示。首先,提取某些手工艺功能(FMLLR,FMLLR,,MFCC,Fbank)并进行随机掩蔽,然后通过采样,在变压器模型中输入它以预测帧降低并执行L1损耗。

  根据Mockingjay模型,Albert模型[8]有所改进。下图是Alybert和Mockingjay模型之间的区别。可以看出,Albert基于MockingJay的音频改进是分享多人的参数 -层变压器。其他地方没有差异。通过此类改进,有效性和非共享参数数量接近,但确实可以显着减少参数的数量。

  还有一个基于模型的模型基于模型 - 转换器编码器表示来自更改)[9]。它在输入端子上,并执行一些改变以增强改善预训练模型的效果。下面的图是TERA如何输入的示意图。Alteatory主要分为3种类型,在时间维度中掩盖,在时间维度中,掩盖掩盖,掩盖在掩码中。特征尺寸,并在整个段中添加一些高斯白噪声。

  除了上述两种预训练方法外,还有一种预测中间框架信息的预训练方法,其中包括双方的信息。NPC(非自动入学预测编码)[10]模型是按照这种方式进行的。下图显示了NPC的模型框架。

  输入是MFCC(80DIM),但是当训练NPC模型时,输入模型不是整个序列。它只需要在蒙版上删除的帧前后输入一些帧(例如,每个前后10帧).3帧。mask掉落3帧而不是1帧,这可以防止模型复制相邻点(XT-1,XT+1)掩码点是当前力矩当前力矩的预测值,从而阻止了预测的值yt与Xtinformation增益相对。在掩码后输入后,几个交流后,每个converclock of xtinformation have of xtinformation have of xtinformation have exter yt to yt toper。连接的框架还将增加蒙版中间的框架,并且会逐层增加。目的是防止输出在任何掩码大小中查看任何数据。几个Convblock数据后,将添加数据以获取HT(当前时间进行HIDEN表示之前,HIDES REP),HT通过VQLAYER和线性层。最后,预计中间框架使用L1损失。该模型的效果比自回归模型更好,并且可以显着降低模型的大小。

  预训练语音模型是当前语音行业中流行的科学研究方向。在目前,基于变压器的模型比早期的LSTM或GRU模型更好。如果追求性能,那么最好的预训练语音模型就是目前被公认为WAV2VEC 2.0.但是如果追求速度,则音频Albert和NPC模型是不错的选择。这两个模型可以在确保可比性的性能时降低模型的大小并提高模型的速度。我相信,在不久的将来,随着深度学习技术的进一步发展,预培训的语音模型将引入新的性能和速度方面的改善。

  [1] Oord,Aaron Van Den,Yazhe Li和Oriol Vinyals。

  

  [3] Chung,Yu -An等。“ SPEY评论学习的无监督自回归模型。”ARXIV预印型ARXIV:1904.03240(2019)。

  [4] Chung,Yu -N,Hao Tang和James Glass。

  [5] Baevski,Alexei,Steffen Schneider和Michael Auli。

  [6] Baevski,Alexei等。“ WAV2VEC 2.0:SPEY评论的自我监督学习的框架。”ARXIV预印型ARXIV:2006.11477(2020)。

  

  [8] Chi,Po-Han等。“ Audio Albert:一位精简版的音频表示学习。

  ):2351-2366。

  [10] Liu,Alexander H。,Yu -An Chung和James Glass。

  本文分享了华为云社区的诚意,作者:哈德森。