加州大学旧金山分校科学家训练出可直接翻译受试者脑电波的算法实时成句,错误率仅为3%。这项发表在《自然神经科学》(自然神经科学)杂志上的研究招募了4名志愿者,他们被要求多次阅读30-50个固定句子,同时电极记录他们的大脑活动。[1]【雷锋网注:人类对大脑知之甚少。图片来源:Pixabay所有者:GerdAltmann]然后将这些数据输入机器学习算法,该算法将每个句子的大脑活动数据转换为一串数字和字符串。然后,系统会根据这些大脑活动数据推断出声音,并将它们与实际录制的音频进行比较。然后将数字和字符串再次输入系统以转换为单词序列。起初,系统吐出无意义的句子。但是,当系统将每个单词序列与实际口语句子进行比较、了解数字串与单词的关系以及哪些单词与上下文相关时,系统得到了改进。该算法经过训练,直到它在说话时根据大脑活动生成书面文本,类似于机器翻译。新系统比以前的方法准确得多。虽然准确性因人而异,但对于其中一名志愿者来说,平均每个句子只有3%需要更正,这高于速记员5%的单词错误率。当然,目前的系统还有很大的局限性,算法只能处理少量的句子。该系统也不能用于失去说话能力的严重残疾患者,因为它依赖于记录人们大声说出句子时的大脑活动。然而,每个志愿者只用了不到40分钟的时间来训练,并在有限的小数据集下实现了迄今为止最大的准确度。建立从人脑信号到外部设备的连接路径对于脑机接口来说并不新鲜。脑机接口的研究已经进行了30年。【雷锋手记:脑机接口是近30年的研究热点。图片来源:Pixabay所有者:aytuguluturk]在过去的十年里,我们已经能够解码语音信号,但仅限于孤立的音素或单音节词。在100个词的连续语音情况下,正确解码的词数不到40%。科学家们这次发现的是一种更直接的方法,就是采用类似机器翻译的算法。机器翻译是将文本从一种语言翻译成另一种语言的算法,只是这次输入文本被转换为脑电波信号。此次发表的论文《使用编码器-解码器框架:大脑皮层活动到文本的机器翻译》详细描述了这个过程。当系统在一名志愿者身上进行训练,然后在另一名志愿者身上进行训练时,解码结果得到改善,这表明该技术可以在人与人之间转移。在GitHub上,放置了论文对应的代码。ecog2txt模块,用于将神经数据中的语音解码为文本。它在Python代码中实现了跨学科迁移学习的高级功能。[2]【雷锋网注:ecog2txt是论文对应的开源实现模块】而训练本身是通过另一个machine_learning软件包,在TensorFlow中实现了一个sequence-to-sequence网络。[3]这些软件包的作者和论文的合著者之一JosephMakin博士目前是UCSF综合神经科学中心的研究科学家。他主修电气工程和计算机科学,专攻控制理论,包括脑机接口的算法开发。[4]【雷锋网注:上图为张爱德博士】该论文的另一位共同作者是医学博士、神经外科医生EdwardChang博士。擅长治疗癫痫、脑瘤、三叉神经痛,为成人的面肌痉挛和运动障碍提供治疗。他目前是加州大学旧金山分校威尔神经科学研究所的神经外科教授,还领导着一个神经工程和假肢中心,致力于为患有瘫痪和语言障碍等神经系统疾病的患者恢复功能。[5]网友评论说,科学家曾认为将大脑信号转化为可理解的语音可能需要数十年时间,但现在这个间隔可以用年来衡量。在reddit的科学部分,这条新闻产生了超过30,000个赞和数千条评论。[6]网友derlumpenhund评论说,这并不意味着思想阅读机已经被发明出来。它主要依靠对应于口舌运动解码的皮层活动。它需要收集给定主题的数据并预先训练它,它不会直接解码你的思维活动。话虽这么说,进步也很显着。网友boointhehouse表示,如果斯蒂芬霍金早点使用这项技术,他有生之年可以做更多的工作。
