4月23日消息,据外媒报道,一种新型人工智能大脑信号生成文本的准确率高达97%。亚马逊和谷歌等科技公司打造的虚拟助手非常先进,它们的语音识别能力比几年前好得惊人,人们近年来才刚刚开始意识到它们的强大功能。然而,事实上,一个更加惊人和令人费解的技术里程碑可能即将出现。它完全让语音识别技术相形见绌,语音识别技术是一种强大的人工智能(AI)系统,可以直接从人们的大脑活动中生成完整的文本,而无需听到一个单词。这不完全是一个科幻小说的概念。近几十年来,脑机接口技术突飞猛进,从动物模型到人类参与者。事实上,此类技术已经在尝试将这一概念从幻想变为现实。加州大学旧金山分校的研究人员在一项新研究中解释说,到目前为止,该技术将人脑信号转换为文本的效果还不是很准确。为了看看这是否可以得到改善,由加州大学旧金山分校EdwardChang实验室的神经外科教授EdwardChang领导的团队使用了一种全新的方法来解码皮层电图:使用植入大脑的电极来记录在大脑中产生的电脉冲。皮层活动。在这项研究中,四名癫痫患者接受了植入物,以监测由他们的医疗状况引起的癫痫发作。研究小组还进行了一项附带实验,参与者大声朗读预先准备好的句子,同时通过电极记录他们的大脑活动。然后将这些数据输入神经网络,该网络根据实验的录音,分析与特定语音特征(如元音、辅音或嘴形)相对应的大脑活动模式。然后另一个神经网络解码这些大脑表征——参与者重复阅读30到50个句子时产生的大脑活动数据——并根据他们阅读单词时发生的情况,使用它们来尝试预测人们在说什么。皮层信号。在最好的情况下,该系统在将其中一个参与者的大脑信号翻译成文本时实现了仅3%的单词错误率(WER)——至少在这些严格定义的实验条件下,这个单词错误率可能接近于迄今为止人工智能阅读人们思想的最佳表现。在研究论文中,研究团队详细介绍了参与者阅读的参考句子的许多示例以及神经网络生成的“预测”。这些预测有时是错误的,但并非总是如此。然而,从非常明显的错误来看,它们似乎与人耳在听语音时会犯的错误有很大不同(这可能是由于AI引入的数据集有限)。神经网络出错的例子包括:“Thismuseumhiresmusicianseverynight”被预测为“Thismuseumhiresmusicianseveryexpensivemorning”;“蛋糕的一部分被狗吃了”,预测为“蛋糕的一部分是饼干”;“TinaTurnerisapopsinger”,被预测为“DedTurnerisapopsinger”。在最糟糕的例子中,神经网络的错误在语音和语义上都是完全无法解释的,并且与实际句子无关:“她穿着温暖的羊毛工作服”被预测为“绿洲是海市蜃楼”。然而,尽管令人毛骨悚然的明显错误,总体而言,该系统可能在基于AI的大脑活动解码方面取得了最佳性能,该团队表示,毕竟其最佳性能仅为5%的单词错误,可与专业的人类语音转录相媲美。当然,处理日常语音的专业转录员必须拥有数以万计的词汇量。相比之下,该系统只能从有限的一组短句中学习大约250个单词的皮质特征,因此比较是不公平的。虽然有仍有许多障碍需要克服,研究团队相信该系统有一天可以让那些失去说话能力的人再次说话。如果这样的事情成为可能,它有望巨大的影响——给一些人一种与周围世界交流的方式——而且它的影响可能比人们目前想象的要大得多。研究论文的作者解释说,“在长期植入的参与者中,可用的训练数据量将比本研究中使用的半小时左右的语音量大几个数量级,这意味着输入语言的词汇和表达灵活性将大大提高。”研究结果发表在期刊《自然神经科学》上。
