每年,全世界有超过6900万人遭受创伤性脑损伤,其中许多人无法通过语音、打字或手势进行交流。如果研究人员开发出一种技术,能够以非侵入性的方式直接从大脑活动中解码语言,那么这些人的生活可能会大大改善。现在,Meta展开了一项新的研究来解决这个问题。刚刚,MetaAI官博发布了一项新技术,可以利用AI直接从大脑活动中解码出语音。从3秒的大脑活动开始,AI就能够从人们每天使用的793个词汇中解码出相应的语音片段,准确率高达73%。从大脑活动中解码语音一直是神经科学家和临床医生的目标,但大多数进展都依赖于侵入性大脑记录技术,如立体定向脑电图和皮层脑电图。这些设备可以提供比非侵入性方法更清晰的信号,但需要神经外科干预。虽然这项工作的结果表明,从大脑活动记录中解码语音是可行的,但使用非侵入性方法解码语音将提供更安全、更具可扩展性的解决方案,最终可以使更多人受益。然而,这是非常具有挑战性的,因为非侵入性录音是出了名的嘈杂,并且由于各种原因,包括每个人的大脑和传感器位置的差异,录音会话和个人之间可能会有很大差异。巨大差距。Meta通过创建一个经过对比学习训练的深度学习模型来解决这些挑战,然后使用它来最大程度地对齐非侵入性大脑记录和语音。为此,Meta使用了FAIR团队于2020年开发的开源自监督学习模型wave2vec2.0,以识别听有声读物的志愿者大脑中复杂的语音表征。Meta专注于两种非侵入性技术:脑电图和脑磁图(简称EEG和MEG),它们分别测量由神经元活动引起的电场和磁场波动。实际上,这两个系统可以使用数百个传感器每秒拍摄大约1,000个大脑活动的宏观快照。Meta利用来自学术机构的四个开源EEG和MEG数据集,利用169名健康志愿者收听英语和荷兰语有声读物和孤立句子的150多个小时的录音。然后,Meta将这些EEG和MEG记录输入一个“大脑”模型,该模型由一个带有残余连接的标准深度卷积网络组成。众所周知,EEG和MEG记录在个体之间存在很大差异,因为个体大脑解剖结构、大脑区域神经功能的位置和时间差异以及记录过程中的传感器放置。实际上,这意味着分析大脑数据通常需要复杂的工程管道来重新调整模板大脑上的大脑信号。在之前的研究中,大脑解码器接受了少量录音的训练,以预测一组有限的语音特征,例如词性类别或小词汇表中的单词。为了促进研究,Meta设计了一个新的主题嵌入层,该层经过端到端训练,可以将所有大脑记录安排在一个公共空间中。为了从非侵入性大脑信号中解码语音,Meta训练了一个具有对比学习的模型来校准语音及其相应的大脑活动。最后,Meta的架构学会了比较大脑模型的输出与呈现给参与者的语音是否匹配深度表示。在Meta之前的工作中,我们使用wav2vec2.0来展示这种语音算法自动学习生成与大脑一致的语音表示。wav2vec2.0中出现的“类脑”语音表征使其成为Meta研究人员构建自己的解码器的自然选择,因为它有助于Meta研究人员了解应该从大脑信号中提取哪些表征。Meta最近表明,wav2vec2.0(左)的激活映射到大脑(右)以响应相同的语音。该算法的第一层(冷色)的表示映射到早期听觉皮层,而最深层映射到更高级的大脑区域,例如前额叶和顶叶皮层。经过训练后,Meta的系统执行所谓的零样本分类:给定一个大脑活动片段,它可以从大量新音频片段中确定该人实际听到的片段。该算法推断出人们最有可能听到的词。这是令人兴奋的一步,因为它表明人工智能在感知语音时可以成功地学会解码大脑活动的嘈杂和可变的非侵入性记录。下一步是看看研究人员是否可以扩展该模型以直接从大脑活动中解码语音而不需要音频剪辑池,即转向安全且多功能的语音解码器。研究人员的分析进一步表明,我们算法的几个组成部分,包括使用wav2vec2.0和主题层,有利于解码性能。此外,Meta的算法随着EEG和MEG记录的数量而改进。实际上,这意味着Meta研究人员的方法受益于大量异构数据的提取,原则上可以帮助改进小型数据集的解码。这很重要,因为在许多情况下,给定的参与者很难收集大量数据。例如,要求患者在扫描仪前花费几十个小时来检查系统是否适合他们是不切实际的。相反,算法可以在包含许多个体和条件的大型数据集上进行预训练,然后在数据很少的情况下为解码新患者的大脑活动提供支持。Meta的研究令人鼓舞,因为它表明经过自我监督训练的AI可以成功地从大脑活动的非侵入性记录中解码感知到的语音,尽管这些数据存在固有的噪声和可变性。当然,这些结果只是第一步。在这项研究工作中,Meta专注于解码语音感知,但患者沟通的最终目标需要将这项工作扩展到语音生成。这一研究领域甚至可以超越帮助患者的范围??,可能包括启用与计算机交互的新方式。从更大的角度来看,Meta的工作是科学界利用人工智能更好地理解人脑的努力的一部分。Meta希望公开分享这项研究,以加速应对未来挑战的进展。论文分析论文链接:https://arxiv.org/pdf/2208.12266.pdf本文提出了一种单一的端到端架构,用于在大量个体群体中进行比较学习训练,以预测自然语音的自我监督表示。我们在四个公共数据集上评估了我们的模型,这些公共数据集包括169名志愿者在听自然语音时的脑磁图或脑电图(M/EEG)记录。这为从大脑活动的非侵入性记录中实时解码自然语言处理提供了一条新途径。方法和架构我们首先将神经解码的一般任务形式化,并使用对比损失来激励训练。在介绍用于大脑解码的深度学习架构之前,我们先介绍预训练自监督模块wav2vec2.0提供的丰富的语音表示。我们的目标是从用无创脑磁图(MEG)或脑电图(EEG)记录的时间序列高维脑信号中解码语音,而健康的志愿者则被动地听他们母语的口语句子。口语在大脑中的表示方式在很大程度上是未知的,因此解码器通常以监督方式进行训练,以预测已知依赖于大脑的潜在语音表示。根据经验,我们观察到这种直接回归方法的几个挑战:当存在语音时,解码预测似乎由无法区分的宽带分量主导(图2.A-B)。这一挑战促使我们做出三个主要贡献:引入对比损失、预训练的深度语音表示和专门的大脑解码器。1.ContrastiveLoss首先,我们推断回归可能是一种无效的损失,因为它偏离了我们的目标:从大脑活动中解码语音。因此,我们将其替换为对比损失,即“CLIP”损失,其最初设计用于匹配模式、文本和图像中的潜在表示。2.预训练的深度语音表征其次,梅尔谱是语音的低级表征,因此不太可能匹配丰富的皮质表征。因此,我们将MelSpectrumY替换为端到端学习的语音潜在表示(“DeepMel”模型)或独立的自监督语音模型。在实践中,我们使用wav2vec2-large-xlsr-531,它已经过53种不同语言的56k小时语音预训练。3.专用的“大脑解码器”最后,对于大脑模块,我们使用深度神经网络fclip,它输入原始的M/EEG时间序列X和对应对象s的单次编码,输出一个潜在的大脑表示Z,它的采样率与X相同。该架构包括(1)M/EEG传感器上的空间注意层,然后是一个特定于对象的1x1卷积,旨在利用主体间的可变性,其输入是一堆卷积块。结果表明,wav2vec2.0模型可以从3秒脑电信号中识别出相应的语音片段,在1,594个不同片段中的准确率高达72.5%,在2,604个脑电记录片段中的准确率高达19.1%,可以解码不在语音中的短语。训练集。
