当前位置: 首页 > 科技观察

科学家“黑”果蝇大脑跑NLP任务,发现效率比BERT还高

时间:2023-03-23 10:58:50 科技观察

研究了半天人工神经网络,为什么不复制粘贴动物的答案呢?最近,关于摩尔定律终结的讨论频频出现。深度学习对算力要求越来越高,与芯片厂商“挤牙膏”式的更新换代速度产生了不可调和的矛盾。对此,一些研究人员着眼于提高传统架构的效率,也有一些研究人员将注意力转向传统计算机系统以外的领域,如光电计算、类脑计算、量子计算等。现在,有些人想在动物身上寻找灵感。1月13日刚刚公布榜单的人工智能顶级会议ICLR2021上出现了这样一篇论文:研究人员“黑掉”了果蝇的神经网络,并用它来运行NLP算法,发现性能与果蝇相当传统的人工神经网络。该网络具有可比性并且非常节能。这次行动,仿佛打开了新世界的大门。神经科学中研究得最好的网络之一是果蝇大脑,特别是称为蘑菇体的部分。这部分分析气味、温度、湿度和视觉数据等感官输入,以便果蝇学会区分友好和危险的刺激。神经科学家说,苍蝇大脑的这一部分由一组称为投射神经元的细胞组成,这些细胞将感觉信息传递给2,000个称为Kenyon细胞(简称KC)的神经元,这些神经元连接在一起形成能够学习神经网络的细胞。这使得果蝇在学习接近食物、潜在配偶等时能够学会避免潜在有害的感官输入(例如危险的气味和温度)。这个相对较小的网络的强大功能和灵活性让神经科学家想知道:它是否可以通过编程来解决其他任务?在伦斯勒理工学院和麻省理工学院-IBM沃森人工智能实验室的研究人员进行的一项侵入果蝇大脑网络的研究中,人们成功地在生物大脑中执行了自然语言处理等任务。这是第一次以这种方式征用自然界中的神经网络。研究人员表示,生物大脑网络的性能与人工学习的网络一样好,但使用的计算资源更少。该方法相对简单,团队首先使用计算机程序重建蘑菇体所依赖的网络,大量神经元向大约2,000个Kenyon细胞提供数据。然后,研究人员训练网络识别文本中单词之间的相关性。该任务基于这样一种想法,即一个词可以通过其上下文或通常出现在它附近的其他词来表征。这个想法是从一个文本语料库开始,对于每个单词,分析出现在它前后的其他单词。这允许机器学习系统根据已经出现的单词预测句子中的下一个单词。许多系统(如BERT)都使用这种方法来生成看起来很自然的句子,本研究也采用了这种方法。事实证明,尽管自然界中的网络根本不是为了这个目的而进化的,但它在这方面做得很好。该研究表明网络可以学习单词的语义表示。据研究人员称,果蝇大脑网络可与现有的自然语言处理方法相媲美,最重要的是,生物网络仅使用一小部分计算资源。这意味着它只使用更少的训练时间和内存占用。生物效率这是一个有趣的结果。“我们将这样的结果视为生物启发算法的普遍性的一个例子,它比传统的非生物算法更有效,”该论文的作者YuchenLiang等人说。除了展示生物计算的效率外,这项工作还提出了一些有趣的问题。其中最明显的是:为什么生物神经网络计算如此高效?当然,根据进化论,自然界会选择更高效的神经网络来生存,但在论文中,研究人员尚未就凯尼恩细胞为何高效提出自己的看法。这项工作显然也开辟了“黑进”其他生物大脑的方向。然而,人们似乎仍然面临着一些挑战。一个潜在的问题是,神经科学家仍然难以描述更复杂的大脑(如哺乳动物)的特征。果蝇的大脑相对较小,只有100,000个神经元,而小鼠有1亿个,人类有1000亿个。因此,我们还需要一段时间才能看到老鼠、海豚或人类的大脑被“黑掉”。研究概览论文:果蝇可以学习词嵌入吗?论文链接:https://openreview.net/forum?id=xfmSoxdxFCG果蝇脑菇体是神经科学中研究最多的系统之一,其核心由一组肯扬细胞组成。这些细胞接收来自多种感觉方式的输入,并被GABAergic神经元(前配对横向神经元,APL神经元)抑制,从而创建输入的稀疏高维表示。具体来说,它的主要感觉方式是气味,但也有来自感知温度、湿度和视觉的神经元的输入。这些输入通过一组突触权重传递给大约2000个Kenyon细胞。Kenyon细胞通过APL神经元相互连接,APL神经元向Kenyon细胞发送强烈的抑制信号。这个循环网络在Kenyon细胞中产生了赢者通吃的效应,并沉默了除少数“冠军”神经元以外的所有神经元。在这篇论文中,研究人员对网络主题(motif)进行了数学建模,并将其应用于一个常见的NLP任务:学习非结构化文本语料库中的单词与上午和下午相关结构之间的关系。本研究提出的网络motif如图1所示,KC也将输出发送到蘑菇体输出神经元(MBON),但这部分蘑菇体网络不包含在数学模型中。图1:网络架构图。对应于不同模态的几组神经元将它们的活动发送到KC层,该层通过与APL神经元的互连而被抑制。总体而言,研究贡献如下:受果蝇网络的启发,研究人员提出了一种算法,可以为单词及其上下文生成二进制(而不是连续)词嵌入,并系统地评估该算法在词汇相似性方面的表现在语义任务、词义消歧和文本分类等任务上;与连续的GloVe嵌入相比,本文的二元嵌入可以产生更紧密和更好分离的概念簇,符合二值化版本的GloVe的聚类特性;研究人员发现,训练果蝇网络所需的计算时间比训练传统NLP架构(如BERT)所需的计算时间少一个数量级,但分类精度有所降低。这一成就展示了人类对自然界的算法和行为进行“重新编程”并将其转化为原始生物从未参与过的任务的目标算法的巨大潜力。实验结果在论文的第三章中,研究人员评估了所提出的网络从静态词嵌入、词聚类、上下文相关词嵌入和文本分类等几个方面。以下是实验结果。静态词嵌入评估词聚类上下文相关词嵌入文本分类计算效率本文第一作者梁宇辰,毕业于浙江大学,本科,哥伦比亚大学硕士。他现在是伦斯勒理工学院的教授)博士。候选人。研究兴趣包括数据挖掘和机器学习技术。