当前位置: 首页 > 科技观察

Hinton独立发布了44页的论文:Giveyouanidea,tryityourself

时间:2023-03-16 23:39:42 科技观察

“如果我们想让神经网络像人类一样理解图像,我们需要弄清楚神经网络是如何表示部分-整体层次结构的。”GoogleGeoffreyHinton,副总裁、工程研究专家、VectorInstitute首席科学顾问、多伦多大学EmeritusEmeritus教授。2月25日,一篇只有图灵奖获得者Hinton签名的44页论文被上传到预印本论文平台arXiv,在人工智能界引起震动。论文链接:https://arxiv.org/abs/2102.12627这是继2017年Hinton及其合作者的胶囊网络CapsNet公开后,深度学习模型架构的又一次尝试。有趣的是,人们看完后发现,虽然这篇文章很长,主要是描述一种思想。Hinton希望其他研究人员能从中得到启发,沿着这个思路开展后续研究。Hinton在论文的摘要中写道:“这篇论文没有描述一个已经在运行的系统。它只描述了一个关于表示的单一想法,它允许将几个不同小组取得的进步组合成一个系统,称为GLOM的假设系统。这些advances包括Transformer,neuralfield,contrastiverepresentationlearning,modeldistillation,capsulenetwork(胶囊),GLOM回答了一个问题:固定架构的神经网络如何将图像解析成parts-hierarchy作为一个整体,但各有不同image?的想法很简单,就是用相同向量的孤岛来表示解析树中的节点。如果GLOM被证明是可行的,它可以应用于视觉或语言任务,可以大大提高transformer生成的表示的可解释性-likesystems.Hinton是否尝试过这个想法到具体编码的程度?对此,作者自己表示,他正在与LauraCulp和SaraS合作沉思于这样的想法。我们知道,Hinton提到的谷歌研究科学家SaraSabour,也是此前胶囊网络论文的第一作者。在NIPS2017论文《Dynamic Routing Between Capsules》发布后,Sara也开源了一段Capsule代码。GLOM的想法是什么?有强有力的心理学证据表明,人类将视觉场景解析为部分和整体的层次结构,并将部分和整体之间的视图不变空间关系建模为他们分配给整体和部分的内在坐标系之一。之间的坐标变换。如果我们想让神经网络像人类一样理解图像,我们需要弄清楚神经网络如何表示部分-整体层次结构。这并不容易做到,因为真实的神经网络无法动态分配一组神经元来表示解析树中的一个节点。神经网络无法动态分配神经元是一系列使用“胶囊”的模型的动机。这些模型假设一组称为“胶囊”的神经元将始终关注某一类部分,该部分出现在图像的特定区域。然后可以通过激活这些预先存在的特定类型胶囊的子集以及它们之间的适当连接来创建解析树。然而,这篇论文描述了一种非常不同的方法,使用胶囊来表示神经网络中的部分-整体层次结构。虽然本文着重于对单个静态图像的感知,但最容易将GLOM理解为处理一系列帧的管道,因此静态图像将被视为一系列相同的帧。GLOM模式由大量具有相同权重的列组成。每一列都是一堆空间定位的自动编码器,这些自动编码器学习在一个小图像块中出现的多级表示。每个自动编码器都使用多层自底向上编码器和多层自顶向下解码器将一层的嵌入转换为相邻层的嵌入。这些级别对应于部分-整体层次结构中的级别。例如,当显示一张人脸图像时,单列可能会收敛到表示鼻孔、鼻子、人脸和人的嵌入向量。图1显示了不同级别的嵌入如何在单个列中交互。图1没有显示不同列中相同级别的嵌入之间的交互。这些交互比列内的交互简单得多,因为它们不需要实现部分到整体的坐标转换。它们就像多头转换器中表示不同单词片段的列之间的注意力加权交互,但它们更简单,因为查询、键和值向量与嵌入向量完全相同。列间交互的作用是通过将该级别的每个嵌入向量回归到附近位置的其他相似向量,从而在该级别生成相同嵌入的孤岛。这会创建多个本地“回音室”,其中一个级别的嵌入主要集中在其他志同道合的嵌入上。在每个离散时间和每一列中,一个级别的嵌入被更新为以下4个的加权平均值:先前作用于上一层嵌入的自上而下神经网络产生的预测;前一个时间步的嵌入向量;先前相邻列中同一级别嵌入的注意力加权平均值。对于静态图像,特定级别的嵌入应该随着时间的推移而稳定,以产生几乎相同向量的不同岛屿。级别越高,这些岛应该越大,如图2所示。使用相似的岛表示解析图像避免了分配神经元组来动态表示解析树的节点,或预先保留神经元组的需要所有可能的节点。GLOM不是分配神经硬件来表示解析树中的节点,也不是为节点提供指向其祖先和后代的指针,而是分配适当的活动向量来表示节点,并使用相同的活动向量。访问节点祖先和后代的能力是通过自下而上和自上而下的神经网络实现的。而不是使用RAM进行表查找。和BERT一样,整个系统可以端到端的进行训练,在最后一个时间步从输入图像中缺失区域重建图像,目标函数也包括两个正则化过程,使得每一层上的孤岛几乎都是相同的向量.正则化器只是层的新嵌入与自下而上和自上而下的预测之间的协议,添加此协议将有助于生成局部孤岛。它与其他神经网络有何不同GLOM相对于胶囊网络的主要优势在于它不需要预先分配神经元到每个级别可能的离散部分集合,这允许类似的组件如手臂和腿有更多的知识属于特定类型对象的部分数量/类型的共享和更大的灵活性。同时,GLOM不需要动态路径,其聚类过程比胶囊网络好很多。与最近流行的Transformer模型相比,GLOM的重排相当于标准版的transformer,但有一些不同:每层的权重相同;注意力机制大大简化;在大多数transformer模型中,用于提供更多表现力的multiplehead被重新设计以实现多层次的part-whole层次结构。在研究中,Hinton表示,最初提出胶囊网络是因为卷积神经网络CNN存在三个可感知的缺陷。如果您熟悉CNN,GLOM也可以看作是一种特殊的CNN,它在以下方面与标准CNN不同:?它仅使用1×1卷积(前端除外)。?位置之间的相互作用是通过实现匹配过滤器的无参数平均来实现的,它允许自己使用霍夫变换来激活细胞,而不仅仅是匹配过滤器。?迭代不使用单个前馈遍历来表示层次结构,而是允许神经场实现自上而下的影响。?它包括对比自监督学习并执行层次分割,这是识别的一部分而不是单独的任务。这解决了不透明度问题。GLOM网络真的是未来的方向吗?正如网友们评论的那样:不管GeoffreyHinton提出的想法好不好,都能觉得他的文风很过瘾。这位2018年图灵奖获得者在一篇冗长的文章中很好地阐述了他的想法,并通过各种观点使它们具体化。即使这个模型被证明在技术上不可行,人们也可以从他的推理过程中得到很多启发。这篇论文最初是作为实现的设计文档,但由于需要证明某些设计决策的合理性,所以很快就放慢了速度。Hinton使用假设的GLOM架构作为工具来传达一组相互关联的想法,旨在揭示神经网络视觉系统的内部工作原理。由于没有引入可行的实现,Hinton更容易专注于清晰地表达想法,避免人们忙于谈论“想法质量”和“实现质量”。“科学与哲学的区别在于,实验可以证明极其合理的想法是错误的,极其不合理的想法也可以是正确的。”目前,Hinton正在参与一个合作项目来测试GLOM架构的能力。同时,他也希望其他研究小组能够加入到对上述想法进行测试的行列中。解析树中的节点由相似向量的岛表示的想法统一了两种截然不同的理解感知的方法。第一种方法是经典的格式塔学派,主张人脑的运作原理属于整体论,整体不同于部分之和。它还提出了“场(field)”理论来模拟感知。在GLOM中,一个percept是一个域,代表整体的共享嵌入向量与代表部分的共享嵌入向量实际上有很大的不同。第二种方法是经典的AI学派,它依靠结构描述来构建感知模型。GLOM也有结构描述,解析树中的每个节点都有自己的“地址”,但地址是在可能嵌入的连续空间中,而不是硬件位置的离散空间中。一些深度学习的批评者认为,神经网络无法处理组合层次结构,需要有一个“神经符号”接口,使神经网络的前端和后端能够将高级推理传递给更符号系统。Hinton认为,人类的主要推理模式是使用类比,而这些类比是通过学习到的高维向量之间的相似性实现的。他还用NeuralSymbolicInterface做了一个类比,他认为这就像汽车制造商花了50年时间解释电动机的缺点,结果却在汽油发动机上增加了电动装置(混合动力、电气化)。BERT的巨大成功和早期结果(如果任务需要,神经网络可以输出解析树)清楚地表明,如果神经网络愿意,它可以解析句子。通过构建BERT的多个head之间的交互,使它们与表示级别相对应,并通过添加对比学习的正则化器来促进每个级别的多个单词片段的局部岛一致性,这可能表明GLOMBERT实际上是在解析句子。