【.com原稿】长短期记忆网络(LSTM)暗示了这样一个假设,即当前该层的状态取决于先前的瞬时状态。这种“单步”时间依赖性可能会限制LSTM对序列信号动态特性的建模。在这篇论文中,针对这样的问题,我们提出了一种先进的长短期记忆网络(advancedLSTM(A-LSTM)),它使用线性组合来组合层在几个时间点的状态来打破传统的LSTM。这个限制。在本文中,我们将A-LSTM应用于情感识别。实验结果表明,与使用传统LSTM的系统相比,使用A-LSTM的系统可以相对提高5.5%的识别率。研究背景LSTM现在广泛应用于RNN。它促进了RNN在序列信号建模中的应用。LSTM有两个输入,一个来自上一层,一个来自本层的前一刻。因此,LSTM隐含地假设这一层的当前状态取决于前一时刻的状态。这种“一步”的时间依赖可能会限制LSTM对序列信号动态特性的建模(特别是对于一些时间依赖跨越比较大的时间轴的任务)。在本文中,针对这样的问题,我们提出了高级LSTM(A-LSTM),以打破传统LSTM的局限性。A-LSTM使用线性组合将这一层在几个时间点的状态组合起来,所以不仅可以看到“一步”之前的状态,还可以看到更远的历史状态。在本文中,我们将A-LSTM应用于话语级别的情感识别任务。传统的情绪识别依赖于对整个句子提取低级描述符的统计信息,例如均值、方差等。由于在实践中,整个句子中可能会出现一些长时间的沉默,或者一些非语音的声音,这个统计数据可能并不准确。在本文中,我们使用基于注意力模型的加权池化递??归神经网络来更有效地提取整个句子级别的特征。先进的长短期记忆网络A-LSTM使用线性组合将层在几个时间点的状态组合起来。它们之间的线性组合是使用类似于注意力模型的机制来计算的。具体配方如下。图1中的C'(t)是前几个时间状态的线性组合。该线性组合后的时间状态将输入到下一个时间点进行更新。可以想象,每次更新不仅仅是针对前一个时刻,而是针对几个时刻的组合。由于这种组合的权重是由注意力模型控制的,A-LSTM可以通过学习自动调整各个时间点之间的权重比例。如果在时间跨度上依赖比较大,距离较远的历史状态可能占比较大的比例;相反,相对较近的历史状态会占比较大的比例。图1展开的A-LSTM加权池循环神经网络图2基于注意力的加权池RNN。在本文中,我们使用基于注意力模型的加权池化循环神经网络进行情绪识别(见图2)。该神经网络的输入是连续的声学信号。使用注意力模型,我们的神经网络可以自动调整每个时间点的权重,然后对每个时间点的输出进行加权平均(加权池化)。加权平均的结果是一个可以表征整个序列串的表达式。由于注意力模型的存在,这个表情的抽取可以包含有效信息,避免无用信息(比如输入序列中一些较长的无声部分)。这比简单地计算整个序列的统计数据(例如opensmile提取的一些底部特征)要好。为了更好地训练模型,我们在情感识别任务之外增加了两个辅助任务,说话人识别和性别识别。我们在此模型中使用A-LSTM来提高系统性能。实验在实验阶段,我们使用来自IEMOCAP数据集的四类数据(快乐、愤怒、悲伤和正常)。共有4490个音频文件。我们随机选择1名男性和1名女性说话人的数据作为测试数据。其余数据用于训练(10%的数据用作验证数据)。我们使用三个指标,即未加权平均F分数(MAF)、未加权平均精度(MAP)和准确性。我们提取了MECC、信号过零率(zerocrossingrate)、能量、能量熵、光谱质心(spectralcentroid)、光谱通量(spectralflux)、光谱滚降(spectralrolloff)、12维色度向量(chromavector)、色度偏差(chromadeviation)、谐波比(harmonicratio)和语音基频,共有36维特征。这些序列特征在整个句子级别归一化后,将它们发送到系统进行训练或测试。在这个实验中,我们的系统有两层神经元,第一层是全连接层,总共由256个整流线性单元组成。第二层是双向长短期记忆网络(bidirectionalLSTM(BLST))。两个方向总共有256个神经元。接下来是基于注意力模型的加权池化层。最上面是三个灵活的最大值传递函数层,分别对应三个任务。我们为这三个任务分配了不同的权重,其中情感识别的权重为1,说话人识别的权重为0.3,性别识别的权重为0.6。如果应用A-LSTM,我们将第二层的BLSTM替换为双向A-LSTM,所有其他参数保持不变。这里的A-LSTM选择了三个时间点的状态进行线性组合,分别是前5个时间点(t-5)、前3个时间点(t-3)和前1个时间点(t-1)。实验结果如下:均值LSTM与A-LSTM类似,唯一不同的是当我们对选定的几个时间点的状态进行线性组合时,没有使用注意力模型,而是简单地做算术平均。结论与使用传统LSTM的系统相比,应用A-LSTM的系统具有更好的识别率。由于weightedpooling过程是对所有时间点输出的加权平均,系统性能的提升只能来自于A-LSTM这种更灵活的time-dependent模型,而不是其他因素,比如high-levelseeingmoretime点等。而且,这种改进的成本只是增加了几百个参数。@font-face{font-family:"Calibri";}@font-face{font-family:"CambriaMath";}@font-face{font-family:"Calibri";}@font-face{font-family:"@宋体";}@font-face{font-family:"NimbusRomNo9L-Medi";}p.MsoNormal,li.MsoNormal,div.MsoNormal{margin:0cm0cm0.0001pt;文本对齐:对齐;字体大小:10.5pt;字体系列:Calibri;}.MsoChpDefault{字体大小:10.5pt;字体系列:Calibri;}div.WordSection1{}作者:TaoFei/FeiTao,LiuGang/GangLiu【原创稿件,合作网站转载请注明原作者及出处.com】
