相对于人类自然“思考”到“说话”的模式,目前的状态-艺术语音转换系统也很慢。当前的顶级NLP系统仍在努力跟上人类思维的速度。例如,在与GoogleAssistant或Alexa虚拟助手互动时,停顿的时间通常比您预期的要长,而不是与真人交谈时的流畅性。AI需要时间来处理你的讲话,它需要判断每个词对它来说意味着什么,是否在它的能力范围之内,然后找出哪些软件包或程序可以接入和部署,最后输出理解结果。从宏观角度来看,这些基于云的系统已经很快了,但仍然不够快,无法为非演讲者创建一个无缝界面,让他们以思维的速度“说话”。从鸟鸣研究开始“鸣禽”(一种鸟类)是研究复杂“发声行为”的有吸引力的模型。鸟鸣与人类语言有许多独特的相似之处,对鸟鸣的研究使人们对声乐运动技能的学习、执行和维持背后的各种机制和回路有了普遍的了解。此外,产生鸟鸣的生物力学与人类和一些非人类灵长类动物有相似之处。在这项新研究中,研究小组在12只斑胸草雀的大脑中植入了电极,然后开始记录它们的歌声。但这还不足以训练AI识别鸟鸣的神经活动。即使是鸟类的大脑也过于复杂,无法完全描绘出神经元的交流方式。因此,研究人员训练了另一个系统,将实时歌曲缩减为AI可以识别的模式。在这项研究中,研究人员通过将植入前运动核HVC中的电极阵列记录的神经群体活动映射到鸟鸣的低维压缩表示上,使用实时实施的简单计算方法来实现,从而展示了鸟鸣的声乐合成器。使用鸟类发声器官(即syrinx、syrinx)的生成生物力学模型作为这些地图的低维目标,可以合成与鸟类自己的歌曲相匹配的声音。这些结果提供了一个概念证明,即可以从正在进行的神经活动中“直接”合成高维、复杂的自然行为。这可能会激发其他物种通过利用外围系统的知识及其输出的时间结构来实施类似的修复方法。实验描述本研究描述了两种方法,用于从斑胸草雀(Taeniopygiaguttata)的运动前核记录的神经活动中合成逼真的发声信号。每种方法都利用发声过程的不同特征。首先,研究人员利用他们对歌曲制作生物力学的理解,采用发声器官的生物力学模型,在低维参数空间中捕捉歌曲的大部分光谱时间复杂性。复杂)。与歌曲的完整时频表示相比,这种降维能够训练将神经活动映射到模型参数的浅层前馈神经网络(FFN)。作为第二种合成方法,研究人员利用神经活动和歌曲之间的时间协方差中的预测成分,这可以通过直接在声音输出的频域表示(频谱图)上训练的递归长短期记忆获得。神经网络(LSTM)学习。每个合成神经元输入都来自感觉运动核HVC,其中神经元生成高级指令来驱动所学歌曲的产生。成年斑胸草雀单独唱一首由3-10个音节组成的固定主题曲。在歌唱过程中,多种HVC神经元亚型的活动受到调节:针对X区和RA区的投射神经元(HVCx/RA)在主题曲期间表现出短促、精确、稀疏的活动爆发,而抑制性中间神经元(HVCI)在主题曲期间表现出更多的紧张活动唱歌。为了获得合奏中的HVC活动和声音输出,我们在雄性成年斑马雀(>120天)中植入16通道或32通道Si探针,并同时记录细胞外电压(n=4只鸟,每只70-120个发声对象).神经记录使用Kilosort自动分类,并手动整理以排除噪音。根据违反不应期的次数,并根据期间的活动,将非噪声簇分类为单单元活动SUA(单单元活动)或多单元活动(单或多单元活动(MUA))singingSparsity,大概是为了投射或中间神经元。记录主要由MUA群体(n88)和HVC中间神经元(HVCI;n=29),推定的投射神经元(HVCx/RA;n=15)相对较少。图1A显示了与歌曲对齐的神经活动直方图示例。图S1显示了每只鸟的簇数的栅格示例。神经驱动的生物力学有意义的压缩增强合成通过神经活动合成复杂的运动序列需要两个高维表示。为了减少问题的维度,我们利用鸟类发声器官的“生物力学模型”,将神经活动转化为声音输出。该模型考虑了syrinx和声道的功能。syrinx包含唇褶皱,当受到subsyringic气囊的压力时会振荡并调节气流以产生声音(图1B)。嘴唇的动力学可以按照非线性振荡器的运动方程建模,其中产生的声音的特性由表示生理运动指令的两个时变参数决定。为了通过生物力学模型根据神经活动合成歌曲,首先要拟合模型的参数以生成每个发声的合成版本。在每次训练中,我们随机选择60%的模体进行训练,将每个模体分成5毫秒的单元,然后训练一个具有单个隐藏层的FFNN来预测相应的生物力学模型参数。神经活动由每个簇的平均放电率表示,分为1毫秒单位。为了避免引入时间依赖性,研究人员将每对神经活动窗口和目标模型参数呈现给网络的顺序随机化。通过训练,预测神经活动测试集对应的生物力学模型参数值,对模型的微分方程进行积分,得到神经驱动合成歌曲的各个单元。这会产生听起来与鸟类自己的声音非常相似的合成发声。相比之下,直接使用FFNN预测歌曲的光谱时间特征会导致低质量的合成。研究人员训练了一个与之前类似的网络,但目标是歌曲的频谱成分,由64个频段的功率表示。以这种方式为每只鸟合成的歌曲示例(图3;音频S1、S2、S3和S4)显示了FFNN如何无法产生斑胸草雀歌曲典型的定义明确的谐波堆,以及如何忠实地再现起伏和声带的下降。与谱时间系数相比,FFNN预测模型参数的能力不同(图2、3和4),这表明降低行为的维度可以增强预测能力。为了证实这一点,研究人员训练FFNN重现行为,即频谱的前3个主要成分(PC)。从神经活动预测3个PC值的性能与预测生物力学模型参数的性能相似(图S4A)。后者的优势在于它的生成能力,可以生成更类似于BOS的歌曲。未能准确预测鸟类图案的频谱系数可能反映出该模型无法捕获特定发声之前跨反应组的更复杂的时间动态。为了捕捉这些动态,研究人员训练了一个LSTM来直接根据前50毫秒的神经活动预测歌曲的频谱成分(64个频带),使用与上一节中描述的相同的输入和输出数据。与FFNN不同,LSTM产生神经驱动的歌曲合成,听起来与预期的鸟类自己的歌曲相似(图3;音频S1、S2、S3和S4)。由于雄性斑胸草雀的品种有限,这可能意味着,可以通过相对简单的方法直接合成。然而,由于FFNN的损失函数接近于正则化非线性回归,因此它预测的歌曲质量比所有其他方法都要差。原因尚不完全清楚,但它可能反映了数据集的神经元亚型组成。这项研究表明,使用计算块的复杂通信信号的BMI可以在已建立的动物模型中实时实施,以生成和学习复杂的声音行为。这种方法的优势在于能够找到可以通过记录相对较小的神经元样本(数十个)的活动来驱动的行为的低维参数量化。使用HVC中位于表面的细胞的记录可以使用侵入性较小的微电极阵列来完成,不仅能够解决LFP,这已被证明适用于BMI,而且还能够解决SUA和MUA。这提供了一种新工具来探索生成、获取和维护声学通信信号的“神经回路”基础知识,并解锁对新模型和实验的访问,旨在了解神经元活动如何转化为自然行为,以及外围效应如何塑造神经基础这种方法也为“声带修复”策略提供了一个试验场。虽然鸟鸣和人类语言之间存在许多明显的差异,但两种语言系统有许多相似之处,包括“串行组织”和“习得”的特征战略、神经元组织和功能的类比、遗传基础以及发声的物理机制、实验的可及性、对神经和周围系统的相对先进的理解以及作为发声和学习的发达模型的地位都使鸣禽成为一种有吸引力的动物促进SpeechBMI(言语BMI)的模型,很像非胡运动BMI的人灵长类动物模型。本文的原始数据和代码资源是开放的。论文作者之一陈树凯目前是加州大学圣地亚哥分校生物工程学院在读博士,研究方向为计算神经科学。语音BMI路面DL再次复活这个实验确实为一个突出的问题提供了解决方案。实时处理鸟鸣声令人印象深刻,用人类语言复制这些结果将是惊人的。然而,这项研究仍处于早期阶段,不一定适用于其他语音系统。为了让它工作得足够快,研究人员利用了语音分析中的一条捷径,当将其扩展到鸟鸣之外时,这条捷径可能行不通。但进一步发展,这可能是自2014年“深度学习复兴”以来“脑机接口”的第一次巨大技术飞跃。
