当前位置: 首页 > 科技观察

前沿技术分享:将大脑信号转化为语音AI算法有望让失语症患者正常说话

时间:2023-03-13 22:05:24 科技观察

在最近发表在《自然》杂志上的一项研究中,加州大学旧金山分校的神经科学家团队推出了一种神经一种可以根据大脑活动合成听起来自然的语音的解码器。该研究由Chang实验室的讲座科学家GopalaAnumanchipalli和生物工程研究生JoshChartier领导。它正在加州大学神经外科教授EdwardChang的实验室中开发。为什么引入这个神经解码器?许多人因中风、创伤性脑损伤或帕金森病、多发性硬化症和肌萎缩侧索硬化症等神经退行性疾病而丧失说话能力。目前,跟踪是非常有用的小眼睛或面部肌肉运动的辅助工具,可以让有严重语言障碍的人逐字逐句地表达他们的想法。然而,使用此类设备生成文本或合成语音往往费时费力且容易出错。这些设备的另一个限制是它们每分钟最多只能生成10个单词。这项研究表明,可以生成一个人的声音的合成版本,可以通过他们的大脑活动来控制。研究人员相信,在未来,该设备可用于帮助有严重语言障碍的人进行流畅的交流。它甚至可以再现人声的某些“音乐性”,表达说话者的情感和个性。“这项研究表明,我们可以根据个人的大脑活动生成完整的口语句子,”Chang说。“这是令人兴奋的原理证明,利用已经触手可及的技术,我们应该能够制造出一种在临床上适用于失语患者的设备。”这个系统是如何工作的?该研究基于JoshChartier和GopalaK.Anumanchipalli的另一项研究,该研究表明我们大脑中的语言中心如何对嘴唇、下巴、舌头和其他声道组件的运动进行编程以产生流畅的语音。在这项新研究中,Anumanchipalli和Chartier让五名患者大声朗读几句话。这些患者的大脑中植入了电极,以绘制癫痫发作的来源,为神经外科手术做准备。同时,研究人员记录了已知参与语言产生的大脑区域的活动。研究人员使用志愿者声音的录音来了解产生这些声音所需的声道运动。使用这个详细的声音解剖图集,科学家们为每个志愿者创建了一个逼真的虚拟声道,可以通过他们的大脑活动来控制。该系统由两个神经网络组成:一个解码器,它将语音过程中产生的大脑活动模式转化为虚拟声道的运动。将这些声道运动转换为志愿者声音的合成近似值的合成器。研究人员观察到,该系统产生的合成语音比直接从志愿者的大脑活动中解码出来的语音要好得多。该系统仍处于早期阶段。在解释它的局限性时,Chartier说:“我们仍然有办法完全模仿口语。我们非常擅长合成较慢的语音,例如‘sh’和‘z’,以及保留语音的节奏和语调以及说话者的性别。”和身份,但一些更突然的声音,如“b”和“p”变得有点模糊。尽管如此,与目前可用的相比,我们在这里产生的准确性水平将是实时通信的惊人改进。”