如果把人脑的神经信号也看成是一种语言,那么机器翻译架构就应用于解释神经信号的可行性似乎并不令人惊讶。在《Nature Neuroscience》的一篇论文中,来自加州大学旧金山分校的研究人员对这一想法进行了测试。他们使用编码器-解码器框架将大脑神经信号转换为文本,将250个单词的封闭句集的错误率降低到3%。论文链接:https://www.nature.com/articles/s41593-020-0608-8过去十年,脑机接口(BMI)从动物实验转向人体实验,具有代表性的结果是使四肢瘫痪者恢复一定的运动能力,实现空间维度两个自由度的连续运动。虽然这种类型的控制也可以与虚拟键盘结合使用以生成文本,即使使用理想的光标控制(目前还不可能),但编码率仍然受到单指打字的限制。另一种选择是直接解码口语,但到目前为止,这种BMI仅限于解码孤立的音素或单音节音节,或者正确解码中等词汇量(约100个单词)中不到40%的连续语音。单词。为了获得更高的准确性,旧金山加利福尼亚大学的研究人员利用了“从神经活动中解码语音”和“机器翻译”这两项任务之间的概念相似性。这两项任务的目标是在同一基础分析单元的两种不同表示之间建立映射。更准确地说,两者都是将一个任意长度的序列转换为另一个任意长度的序列(任意是指输入和输出序列的长度不同,并且彼此之间没有决定性的关系)。在这项研究中,研究人员试图一次解码一个句子,就像今天大多数机器翻译算法所做的那样,因此这两个任务实际上映射到相同类型的输出,即对应于一个句子的一系列单词。另一方面,这两项任务的输入完全不同:分别是神经信号和文本。然而,当前的机器翻译架构可以通过人工神经网络直接从数据中学习特征,这表明用于机器翻译的端到端学习算法几乎可以直接应用于语音解码。为了验证这一假设,我们使用从脑电图(ECoG)获得的神经信号和语音生成过程中相应口语的转录来训练“序列到序列”架构。此外,此任务与机器翻译之间最重要的区别在于,虽然后者的数据集可以包含超过一百万个句子,但作为本研究基础的脑电图研究的个体参与者通常只提供几千个句子。句子。为了在训练数据相对较少的情况下利用端到端学习,研究人员使用了一种只有30-50个不同句子的受限“语言”,在某些情况下,还使用了其他参与者的数据和其他语音任务的迁移学习。这项研究的参与者从两个数据集之一中大声朗读句子:一组图片描述(30个句子,大约125个不同的词),通常在一个会话中描述;或MOCHATIMIT14(460个句子,大约1800个不同的单词),在50个句子组(最后一组60个句子)的会话中,研究人员将其称为MOCHA-1、MOCHA-2等。在时间允许的情况下重复小组会议。为了进行测试,研究人员只考虑了至少重复三次的句子集(即提供一组用于测试和至少两组用于训练),这实际上将MOCHA-TIMIT集限制为MOCHA-1(50个句子),大约250个不同的词)。方法这里首先简要描述解码过程,如下图所示:研究人员要求参与者大声朗读句子,同时使用高密度ECoG网格(ECoG网格)记录他们的半侧脑皮层的神经活动。在每个电极上,ECoG信号(即该范围内分析信号的振幅)的高频分量(70-150Hz,或“高伽马”)的包络以大约200Hz的频率提取。然后将生成的序列(每个对应一个句子)作为输入数据传递给“编码器-解码器”式人工神经网络。该网络分三个阶段处理序列:时间卷积:相似的特征可能会在ECoG数据序列的不同点重复出现,这不能被完全连接的前馈网络利用。EncoderRNN:下采样序列由RNN顺序处理。在每个时间步,编码器RNN的输入由每个下采样序列的当前样本加上它自己的先前状态组成。最终隐藏状态(上图中的黄色条)然后提供整个序列的单个高维编码,与序列长度无关。为了引导编码器在训练期间找到有用的解决方案,研究人员还要求编码器在每个时间步预测语音音频信号的表示,即梅尔频率倒谱系数(MFCC)序列。DecoderRNN:最后要把高维状态转换回另一个序列,词的序列。因此,我们初始化第二个RNN,然后训练在每个时间步解码单词或序列结束标记(此时解码终止)。在输出序列的每一步,除了它自己之前的隐藏状态之外,解码器还将参与者实际说出的句子中的前一个单词(在模型训练阶段)或它自己在上一步中预测的单词作为输入作为输入(在测试阶段)。与以前针对音素进行语音解码的方法相比,这种方法针对的是单词。NetworkArchitecture整个网络同时训练,使得编码器生成接近目标MFCC的值,解码器为每个目标词分配高概率。请注意,MFCC目标提供了“辅助损失”,这是一种多任务学习形式,其目的只是引导网络对词序解码问题提供足够好的解决方案。在测试期间,MFCC预测被丢弃,解码完全基于解码器RNN的输出。所有训练都是通过反向传播使用随机梯度下降完成的,dropout应用于所有层。实验结果在整个实验过程中,研究人员用平均单词错误率(WER,在所有测试句子上计算)量化了性能,因此,完美解码的WER为0%。作为参考,在语音转录中,5%的WER是专业水平,20-25%是可以接受的表现。这也是语音识别技术被广泛采用的标准,尽管参考词汇量要大得多。我们首先考虑当示例参与者说出来自MOCHA-1的50个句子(大约250个不同的单词)时编码器-解码器框架的性能(见下图)。下图中参与者的平均WER约为3%。之前state-of-the-art方法的语音解码WER为60%,实验使用小词汇量(100个词)。解码句子的WER。编码器-解码器网络卓越性能的起源是什么?为了量化其各种因素的贡献,研究人员系统地去除或削弱它们并从头开始训练网络。上图中的第二个框显示了空间下采样数据以模拟较低密度ECoG网格的性能。具体来说,网格的两个维度中只剩下四分之一的通道(即实际上是64个通道而不是256个)。WER大约高出四倍,仍在可用范围内,显示出高密度网格以外的因素对于算法的重要性。第三个框显示了在训练过程中MFCC未锁定时的性能,其WER接近于使用低密度网格数据训练的模型,但仍然明显优于以前的语音解码方法。接下来,研究人员考虑一个输入层是全连接层而不是卷积层的网络(第四个方框),WER达到原来的8倍。然后考虑需要多少数据才能实现高性能。下图显示了四名参与者的WER作为神经网络训练重复次数的函数。没有任何参与者的训练数据总量超过40分钟,在至少重复15次的训练中,WER可以低于25%。下图中,有两个参与者,他们接受了非常少数字的MOCHA句子训练(参与者a/绿色实线,参与者d/棕色实线),因此解码性能较差。
