当前位置: 首页 > 科技观察

使用深度学习分析梦境中的物体

时间:2023-03-20 18:48:20 科技观察

本文主要工作是机器学习和神经科学的结合,需要读者在这两个方向上有一定的基础。机器学习简介:机器学习算法是一类从数据中自动分析并获取规律,并利用规律预测未知数据的算法。最近大火的深度学习是机器学习的一个分支。它主要使用基于人工神经网络的各种方法来实现其目标。现在有很多变体。本文使用的神经网络是卷积神经网络(ConvolutionalNeuralNetworks,CNN)。文章神经科学实验部分主要使用的信号读取方法是功能性磁共振成像(functionalMagneticResonanceImaging,功能性MRI)。当大脑区域的活动水平提高时,相应的血流量也会增加,输送更多的氧气到大脑区域,起到刺激、排除废物的作用。fMRI的空间分辨率很高,但时间分辨率相对有限。它只能采集2s左右的平均活动水平,对神经活动的检测存在一定的延迟。前几天去开ASSC的时候,听到一个很有意思的工作,用深度学习来分析人类梦境中出现的物体类型。我见过的为数不多的结合了深度学习和神经科学的工作之一。回来后看了相关文章,就来这里分享一下。本文提出的总体思路:证明视觉感知和做梦在视觉皮层的神经活动中具有部分相似的激活模式。训练一个视觉感知正常的Decoder作为训练集,从被试视觉皮层的神经活动信号到最佳物体类别。这里分为两部分,先从fMRI信号到特征空间,再从特征空间通过相关分析推断物体类别。使用此解码器来预测梦中的对象类别。捏点私货,用里面的数据说说视觉皮层和卷积神经网络底层的相似度,也算是解释了为什么用卷积神经网络效果更好。***我个人是从一个认知神经科学研究生和机器学习初学者的角度来分析这部作品的。前三点对应他们组发表的三篇文章。让我们从头开始。首先,睡眠期间视觉意象的神经解码。13年工作实验部分:实验过程中,受试者躺在核磁共振机上,同时通过脑电图(EEG)持续检测受试者的睡眠状态。扫描大脑活动。通过特定的脑电图特征获知受试者进入梦境后,将受试者唤醒并要求其口头描述梦境内容。(如下图)结果:在做梦实验之前,作者采集了被试看图片时视觉皮层的Fmri信号,训练了一个基于线性SVM(SupportVectorMachine,支持向量机)分类器这。并用这个分类器尝试解码被试在梦境中看到的物体。作者这里使用的任务比较简单,就是在两个对象类别中挑出正确的一个。结果是预测准确率大于50%,高于随机水平,说明视觉感知和梦在视觉皮层具有相似的信息表征机制。这项工作实际上是先进的。2013年,大概是第一部尝试解析梦境的作品。也是很早就把机器学习和神经科学结合起来的工作。不过由于和今天的话题关系不大,所以只介绍一下。我已经获得了我需要的结果。至于具体使用的思路和方法,这里略过。感兴趣的同学可以自行查找原文。接下来是重点,如何从看图片的主体的fMRI信号中解出物体类别。实验部分:笔者在这里主要做了两种实验,一种是正常看物体的图片,另一种是根据线索想象物体的形象。在物体观察实验中,向受试者展示不同的图片,每张图片持续9秒。这里添加一个比较简单的小任务。当出现的图片与上次出现的图片相同时,主体需要做出按键反应。这是为了让拍摄对象的注意力保持在画面上。第二种是想象实验。在提示阶段,会有1个目标词和49个干扰词。听到“嘀”音后,被试闭眼想象目标词的形象。15s后,听到“滴”的一声后,睁开眼睛,确认想象中的影像就是目标影像。在实验过程中,收集了受试者视觉皮层的fMRI信号。从fMRI到物体类别,接下来的数据分析工作,即从fMRI信号到物体类别,分为两步。第一步是从fMRI信号到特征空间。作者使用8层预训练神经网络进行特征提取。前七层,每层随机抽取1000个神经元,第八层全部1000个神经元,一张图片通过网络向前传播后,这些神经元的输出作为特征。这样每张图片经过前向传播后,就可以得到一个8层*1000个特征/层的特征矩阵。之后,被试利用被试的fMRI信号训练一系列Decoder,从被试的fMRI信号中拟合出不同层的不同特征的值。实现fMRI信号到特征空间的转换。第二步是从特征空间到对象的类别。作者在这里做的第一件事是计算每个对象类别的特征矩阵。他的方法是将每个类别下的所有图片通过网络前向运行,对所有生成的特征矩阵进行平均,得到物体类别对应的特征矩阵。如果要计算上一步在被试梦中解码出来的特征矩阵对应的是哪一类物体。这里做一个简单的相关,将相关系数最高的类别作为预测类别。结果:这篇文章的结果不能说很好,但确实为该领域的应用提出了一个有趣的方向。这张图截取了部分卷积神经网络的预测精度。可以看出,当被试实际看到图片时,使用某些层的预测准确率可以达到非常高,超过90%。当直接使用这个网络迁移到想象中的情况时,也能达到比随机猜测更高的准确率。很明显,现有模型对想象中的图片的预测要差得多。事实上,它有一定的道理,归根结底,想象和直接观看必须有不同的潜在视觉机制。二是模型是根据看图的真实情况训练的,转移到另一个类似但不完全相同的任务上,性能自然会变差。解梦之作:本文为重点。不管有多重要,我不会逐字逐句地翻译,我只会解释整体的逻辑。喜欢本文的同学欢迎阅读原文。这篇文章的巧妙之处在于他没有做实验,而是用了第一篇文章的数据和第二篇文章的模型。单一类别特征解码与平均试验梦中单一对象类别的识别。这里用书上的例子。当主体在做梦时,本书的对象可能会出现在多个梦中。作者将这些梦境对应的fMRI信号相加做平均,然后利用Article2Decoder中的训练预测出当前梦境的特征矩阵,再与书籍类别的特征矩阵进行关联。结果表明,神经网络的较高脑区和较高层级在物体识别方面表现更好,两者的结合产生了最好的结果。多类别特征解码,个体试验当然,梦里只出现书本是不现实的。每个人都有这样的经历。梦境更多的是一个整体的场景,会出现多个物体。如上图所示,在这个梦里,除了书还有一个人和食物。所以作者也做了这个实验,在一个梦中识别多个物体。通过解码对应于单个梦的fMRI信号获得的特征矩阵用于与受试者报告的所有类别的特征矩阵的平均矩阵进行比较。这个预测更差,但趋势与之前的实验相似。更高的大脑区域和更高层的网络具有更好的预测能力。***一个实验,其实就是复现文章1中的***实验,在两个物体类别中,找出真正出现在梦境中的类别。使用的方法也是特征矩阵的相关性。准确率远高于第一篇基于SVM(支持向量机)的结果。这里还可以看出,看到object实验的结果在神经网络的中间层(4、5、6层)表现的比较好,但是在最后一层有下降的趋势。这种趋势在想象结果中也有所体现。对于梦境实验来说,虽然预测效果也大于随机猜测,但是却出现了7层下降,8层上升的现象。模式不符合看图想图的模式。提示虽然梦和视觉的神经机制有一定的相似性,但在具体机制上还是存在一定差异的。携带私人物品。使用本文中的数据简要讨论卷积神经网络与人类视觉皮层之间的相似之处。而这种相似性正是我写这篇文章的原因之一。图像特征解码以及CNN与人脑的同源性。此图出现在第二篇文章中。a是预测特征矩阵的不同层与实际特征值的比较。有一定的重叠,说明Decoder确实在一定程度上学习了fMRI信号到卷积神经网络不同层特征的映射。图B是不同视觉皮层预测的特征值与实际特征值的对比。这里比较有意思的是,低层视觉皮层,如V1、V2、V3,对低层卷积神经网络的拟合相对较好,而高层视觉皮层(FFA(梭形面部区域,梭形人脸识别区,神经科学研究发现主要参与人脸识别),PPA(Parahippocampalplacearea,神经科学发现主要参与场景识别))在拟合高层卷积神经网络方面相对较好。CNN层的首选图像和权重分布。在神经科学领域,也有类似的研究证明FFA、PPA这种相对高级的皮层,对更复杂的视觉刺激会有更强的反应,比如FFA,主要针对人脸。Response,PPA对物体有反应,而底层皮层,如V1、V2、V3,更多地响应底层视觉元素,如不同方向的线条和颜色。作者使用了一种ActivationMaximization的方法,生成了对相应层比较刺激的图片,并用这些图片来展示被摄体,并用这些数据的fMRI生成特征矩阵。发现了类似的现象。人类皮层越高级,对应高级卷积层的拟合结果越好。这意味着卷积神经网络与人类视觉皮层具有一定的相似性,具有低级监督局部特征和高级监督语义特征。整篇文章结束。有的朋友可能会觉得自己看不懂,所以我在这里重新梳理一下文字的逻辑。事实证明,视觉皮层中视觉感知和做梦的神经活动有一些相似的模式。训练一个视觉感知正常的Decoder作为训练集,从被试视觉皮层的神经活动信号到最佳物体类别。这里分为两部分,先从fMRI信号到特征空间,再从特征空间通过相关分析推断物体类别。使用此解码器来预测梦中的对象类别。捏私货,用里面的数据说说视觉皮层和卷积神经网络底层的相似性,也算是解释了为什么用卷积神经网络效果更好。***我个人是从一个认知神经科学研究生和机器学习初学者的角度来分析这部作品的。系列文章个人评价:很有意思的作品。13年,我第一次用fMRI+机器学习技术尝试分析梦境。15年的时间,我从fMRI能够达到一定的准确度,从这两点来看,成功分析信号中看到的物体,是非常具有开创性的工作。此外,卷积神经网络与相关脑区的对比也很有趣,这在一定程度上说明了卷积神经网络与人类视觉皮层的相似性。作为认知神经科学研究生,我认为这些实验做得很好,简单但非常有效。如果说有什么改进的话,就是如果你能来和我们研究所合作,用更高的分辨率7T试试看会不会更好看,一些***的序列可能会达到更好的效果。不过相信作者也是有所取舍的,不仅仅是分辨率,还有信噪比,尤其是在梦幻世界中,噪音也是需要注意的。作为机器学习方向的初学者,个人认为还是有一些可以改进的地方,主要是模型部分。如果这个8层神经网络使用一些更高级的模型,会不会有一些更好的结果。还有用于平均的特征矩??阵。卷积神经网络只能响应低层次的简单特征。一个物体不同表面的局部特征会相对不同。这样求平均的结果会导致实际预测能力差。我个人认为,也许更好的方法是继续前进,在获得最终类别后进行投票。另外,我个人还有一些其他的想法,想借助自己这边的一些东西来尝试实现。