大数据文摘作者:Miggy对于瘫痪患者来说,最大的痛苦来自无法与外界沟通。虽然大脑仍然活跃,想要表达,但无法带动发声肌,会逐渐退化这类患者的语言机制。UCSF神经外科主任EdwardChang正在为失去说话能力的人开发脑机接口技术。他的实验室致力于解码与声道指令相关的大脑信号,通过神经植入,将大脑的语言功能通过电脑输出。该项目不仅需要当今最好的神经技术硬件,还需要强大的机器学习模型。最近,这项技术也取得了长足的进步,让一位因瘫痪15年而“失声”的患者,可以使用电脑与外界沟通。Chang还记录了这个技术过程,并在IEEE上发表。让我们来看看。让一个15年没说话的大脑“说话”,电脑屏幕显示“要喝水吗?”问题。下面,三个点在闪烁,然后是一行:“不,我不渴。”“使交流发生的大脑活动——值得一提的是,对话来自一个超过15年没有说话的无声男人的大脑。15年前,由于中风,他的大脑他身体的其他部分都崩溃了。“失联”,患者与外界的交流从此停止。他尝试了许多新技术来尝试与外界交流;最近,他用指针在触摸屏上敲击文字附在棒球帽上,但效果很慢。最近,这位患者自愿参加了我的研究小组在旧金山加利福尼亚大学的临床试验,希望探索一种更快的沟通方式。到目前为止,他只能使用这个大脑在研究过程中生成的文本。技术系统,但他希望帮助将技术发展成像他这样的人可以在日常生活中使用的东西。在我们的试点研究中,志愿者的大脑被覆盖d用薄而灵活的电极阵列电极记录神经信号并将它们发送到语音解码器,语音解码器将信号翻译成他想说的话。这是第一次不能说话的瘫痪男子使用神经技术从他的大脑中“广播”出整个单词,而不仅仅是字母。这个实验是十多年来对语音背后的大脑机制研究的结晶,我们为迄今为止所取得的成就感到无比自豪。但我们才刚刚开始。我在加州大学旧金山分校的实验室正在与世界各地的同事合作,共同努力使技术安全、稳定和可靠,足以满足日常家庭使用。我们仍在努力提高系统的性能,因此值得付出努力。BCI的第一个版本为志愿者提供了50个有用单词的词汇表。神经植入物如何工作?在过去的二十年里,神经植入技术取得了长足的进步。用于听力的假体植入物走得最远,旨在与内耳的耳蜗神经连接或直接进入听觉脑干。还有大量关于视网膜和大脑植入物的研究,以及为假手提供触觉的努力。所有这些感官假肢都从外部世界获取信息,并将其转化为电信号,输入大脑的处理中心。上周,Digest还报道了一个植入物帮助失去嗅觉的患者恢复味觉的案例。另一类神经假体记录大脑的电活动并将其转化为信号以控制外部世界,例如机械臂、视频游戏控制器或计算机屏幕上的光标。诸如BrainGateConsortium之类的组织已经使用了最后一种控制形式来让瘫痪的人键入单词——有时一次一个字母,有时使用自动完成来加快速度。这种通过大脑打字的方式并不新鲜,但研究人员通常将植入物植入运动皮层,即大脑中控制运动的部分。在虚拟键盘上移动的光标然后由用户想象某些物理动作来控制。另一种方法,由我的一些合作者在2021年的一篇论文中率先提出,要求用户想象他拿着笔在纸上写一封信,在运动皮层中产生信号,然后将其翻译成文本。这种方法创造了打字速度的新记录,让志愿者每分钟可以写出大约18个字。在我们最新的实验室研究中,我们采用了一种更有效的方法。我们不是解码用户移动光标或笔的意图,而是解码控制声道的意图,包括控制喉部(通常称为语音盒)、舌头和嘴唇的数十块肌肉。对于瘫痪的人来说,看似简单的对话设置是由复杂的神经技术硬件和解码他的大脑信号的机器学习系统实现的。十多年前,我开始在这个领域工作。作为一名神经外科医生,我经常看到受重伤无法说话的病人。令我惊讶的是,在许多情况下,脑损伤的位置与我在医学院学到的综合症不符,我意识到我们还有很多关于大脑如何处理语言的知识。我决定研究语言的潜在神经生物学,如果可能的话,开发一个脑机接口(BMI)来恢复失去语言的人的交流。除了我的神经外科背景外,我的团队还拥有语言学、电气工程、计算机科学、生物工程和医学方面的专业知识。肌肉如何帮助您说话语言是使人类独一无二的能力之一。许多其他物种都有发声方式,但只有人类拥有一套可以用无数种不同方式表达的声音。这也是一种非常复杂的运动行为——一些专家认为这是人们执行的最复杂的运动行为。语音是通过声道的调制气流的产物。我们通过在喉部的声带中产生可听见的振动并改变嘴唇、下巴和舌头的形状来塑造我们的呼吸。声道的许多肌肉与基于关节的肌肉(例如手臂和腿部的肌肉)有很大不同,后者只能以几种规定的方式运动。例如,控制嘴唇的肌肉是括约肌,而构成舌头的肌肉更受液压控制——舌头主要由体积固定的肌肉组织组成,因此移动舌头的一部分会改变其在其他地方的形状。控制这些肌肉运动的物理学与二头肌或腿筋完全不同。因为涉及到如此多的肌肉,而且每块肌肉都有如此多的自由度,所以基本上有无数种可能的配置。但是当人们说话时,事实证明他们使用的核心动作相对较少(不同语言有所不同)。例如,当说英语的人发“d”音时,他们会把舌头放在牙齿后面;当他们发出“k”音时,他们的舌根会向上移动以触及口腔后部的天花板。很少有人知道说出最简单的单词所需的精确、复杂和协调的肌肉运动。团队成员DavidMoses查看患者的脑电波读数[左屏幕]和解码系统活动显示[右屏幕]。我的研究小组专注于大脑运动皮层的一部分,该部分向面部、喉咙、嘴巴和舌头的肌肉发送运动命令。这些大脑区域是多任务处理的:它们管理产生语言的肌肉运动,以及吞咽、微笑和接吻时同一块肌肉的运动。研究这些区域的神经活动需要毫米级空间分辨率和毫秒级时间分辨率。从历史上看,无创成像系统已经能够提供其中之一,但不能同时提供两者。当我们开始这项研究时,我们发现关于大脑活动模式如何与最简单的语音组成部分:音素和音节相关联的数据非常少。在此,我们要感谢我们的志愿者。在UCSF癫痫中心,准备手术的患者通常会通过手术将电极放置在他们的大脑表面几天,这样我们就可以绘制癫痫发作期间涉及的区域。在这几天的有线中断期间,许多患者自愿参加了神经学研究实验,这些实验利用了他们大脑中电极的记录,使我们能够研究患者说话时的神经活动模式。涉及的硬件称为皮质电图(ECoG)。ECoG系统中的电极不会穿透大脑,而是位于大脑表面。我们的阵列可以包含数百个电极传感器,每个传感器记录数千个神经元。到目前为止,我们已经使用了一个具有256个通道的阵列。我们在这些早期研究中的目标是发现当人们说出简单的音节时大脑皮层的活动模式。我们要求志愿者发出特定的声音和单词,同时记录他们的神经模式并跟踪他们的舌头和嘴巴运动。有时我们通过让他们在脸上涂上颜色并使用计算机视觉系统来获取运动手势来做到这一点;其他时候,我们使用位于患者下巴下方的超声波机器对他们移动的舌头进行成像。该系统从覆盖患者大脑的一系列柔性电极开始,以接收来自运动皮层的信号。该阵列专门捕获患者声道的运动命令。固定在头骨上的端口将电线连接到计算机系统,该系统解码大脑信号并将其转化为患者想要说的话,并在显示器上显示他们的答案。我们使用这些系统来匹配神经模式与声道的运动。起初,我们对NeuralCode有很多疑问。一种可能性是神经活动对特定肌肉的方向进行编码,大脑本质上就像按键盘上的键一样打开和关闭这些肌肉,而另一种模式决定了肌肉收缩的速度。另一个是神经活动对应于用于产生特定声音的肌肉收缩的协调模式。(例如,要发出“aaah”的声音,舌头和下巴都需要下垂。)我们发现有一张地图控制着声道的不同部分,以及不同的大脑区域。我们可以将两者结合起来产生流畅的语音。今天人工智能在神经技术中的应用我们的工作依赖于过去十年人工智能的进步。我们可以将收集到的有关神经活动和语音运动学的数据输入神经网络,然后让机器学习算法在两个数据集之间的关联中找到模式,进而在神经活动和生成的语音之间建立联系,并使用这个模型来产生计算机生成的语音或文本。但是这种技术不能为瘫痪的人训练算法,因为我们丢失了一半的数据:我们有神经模式,但没有相应的肌肉运动。我们意识到使用机器学习的更聪明的方法是将问题分为两个步骤。首先,解码器将来自大脑的信号转化为预期的声道肌肉运动,然后将这些预期的运动转化为合成的语音或文本。我们称之为仿生方法,因为它复制了生物运动模式;在人体中,神经活动直接负责声道的运动,只是间接负责声音的产生。这种方法的一大优势在于训练解码器将肌肉运动转化为声音的第二步。因为声道运动和声音之间的关系更容易获得,所以我们能够在来自未瘫痪个体的大型数据集上训练解码器。下一个重大挑战是将技术带给真正能从中受益的人。美国国立卫生研究院(NIH)正在资助我们的试点试验,该试验将于2021年开始。我们已经有两名瘫痪志愿者植入了ECoG阵列,我们希望在未来几年内招募更多人。主要目标是改善他们的沟通,我们以每分钟字数来衡量表现。在全键盘上打字的成年人平均每分钟40个单词,最快的打字员达到每分钟80个单词以上。未来:用语音代替文字输出我们认为用语音系统说话的效果会更好。人类说话的速度比打字快得多:说英语的人每分钟可以轻松说出150个单词。我们希望瘫痪的人能够以每分钟100个单词的速度进行交流。为了实现这个目标,我们还有很多工作要做。植入过程与其他植入物类似。首先,外科医生切除一小部分头骨;接下来,将灵活的ECoG阵列轻轻放置在皮质表面。然后将一个小端口固定到头骨上,并通过头皮上的一个单独开口退出。我们目前需要这个端口,它连接到外部电线以传输来自电极的数据,但我们希望将来使系统无线化。我们考虑使用穿透性微电极,因为它们可以记录更小的神经群体,从而提供有关神经活动的更多细节。但目前的硬件在临床使用方面不如ECoG强大和安全。另一个考虑因素是,穿透电极通常需要每天重新校准,才能将神经信号转化为清晰的指令,对神经设备的研究表明,设置速度和性能可靠性是让人们使用该技术的关键。这就是为什么我们在创建持久的“即插即用”系统时优先考虑稳定性。我们进行了一项研究,研究志愿者随时间变化的神经信号,发现如果解码器使用多个会话和多天的数据模式,它的性能会更好。在机器学习术语中,我们说解码器的“权重”是继承的,从而产生一个集成的神经信号。因为我们观察他们的大脑模式时我们瘫痪的志愿者不能说话,所以我们要求我们的第一位志愿者尝试两种不同的方法。他首先列出了50个日常生活中方便的单词,例如“饥饿”、“口渴”、“请”、“帮助”和“计算机”。在几个月的48次治疗中,我们有时让他想象说出清单上的每个词,有时让他张开嘴尝试“说”出这些词。我们发现尝试说话会产生更清晰的大脑信号,并且足以训练解码算法。然后志愿者可以使用列表中的这些词来生成他自己选择的句子,例如“不,我不渴”。我们现在正在努力扩大我们的词汇量。为了实现这个目标,我们需要继续改进当前的算法和界面,但我相信这些改进将在未来几个月和几年内发生。现在已经建立了原理证明,目标是优化。我们可以专注于让我们的系统更快、更准确,而且——最重要的是——更安全、更可靠。事情现在应该进展很快。如果我们能够更好地理解我们试图解码的大脑系统,以及瘫痪如何改变它们的活动,那么最大的突破就会到来。我们已经意识到无法向声道肌肉发送命令的瘫痪患者的神经模式与可以发送命令的癫痫患者的神经模式非常不同。我们正在尝试一项雄心勃勃的BMI工程壮举,但关于潜在的神经科学还有很多东西需要学习。我们相信,这一切汇集在一起??,使我们的患者能够进行交流。素材来源:https://spectrum.ieee.org/brain-computer-interface-speech
