当前位置: 首页 > 科技观察

模块化机器学习系统是否足够?Bengio师生告诉你答案

时间:2023-03-18 01:55:48 科技观察

深度学习研究者从神经科学和认知科学中汲取灵感,从隐藏单元、输入法,到网络连接、网络架构设计等,很多突破性的研究都是基于模仿运算大脑战略。毋庸置疑,近年来,模块化和注意力经常在人工网络中结合使用,并取得了令人瞩目的成果。事实上,认知神经科学研究表明,大脑皮层以模块化的方式表示知识,不同模块之间进行交流,通过注意力机制选择内容,就是前面提到的模块化和注意力的结合使用。在最近的工作中,有人提出大脑中的这种类型的交流可能对深层网络中的归纳偏差有影响。这些高级变量之间依赖性的稀疏性,将知识分解成尽可能独立的可重组部分,使学习更有效率。虽然最近的大部分研究都依赖于此类模块化架构,但研究人员使用了大量技巧和架构修改,这使得破译真正可用的架构原理变得具有挑战性。机器学习系统逐渐显示出更稀疏和更模块化架构的优势,这些架构不仅具有良好的泛化性能,而且还带来更好的分布外(OoD)泛化、可扩展性、学习速度和可解释性。此类系统成功的关键在于,现实世界设置的数据生成系统被认为由稀疏交互的部分组成,并且为模型提供类似的归纳偏差会有所帮助。然而,由于这些真实世界的数据分布复杂且未知,因此该领域一直缺乏对这些系统的严格定量评估。加拿大蒙特利尔大学研究人员SarthakMittal、YoshuaBengio和GuillaumeLajoie撰写的一篇论文,他们对具有简单和已知模块化数据分布的常见模块化架构进行了全面评估。该研究强调了模块化和稀疏性的好处,并揭示了对优化模块化系统时所面临挑战的见解。第一作者和通讯作者SarthakMittal是Bengio和Lajoie的硕士生。论文地址:https://arxiv.org/pdf/2206.02713.pdfGitHub地址:https://github.com/sarthmit/Mod_Arch具体来说,本研究扩展了Rosenbaum等人的分析。并提出了一种评估、量化和分析模块化架构公共组件的方法。为此,该研究开发了一系列旨在探索模块化网络功效的基准和指标。这揭示了宝贵的见解,不仅有助于确定当前方法的成功之处,还有助于确定它们何时以及如何失败。本研究的贡献可归纳如下:本研究基于概率选择规则开发了基准任务和指标,并使用基准和指标来量化模块化系统中的两个重要现象:崩溃和专业化。该研究提炼出常用的模块化归纳偏差,并在一系列旨在提取常用架构属性(单体、模块化、模块化操作、GT-模块化模型)的模型中系统地评估它们。研究发现,当任务中有很多潜在规则时,模块化系统的专业化可以显着提高模型性能,但当规则很少时则不会。该研究发现,标准模块化系统在专注于正确信息的能力和专业化能力方面通常都不是最理想的,这表明需要额外的归纳偏差。定义/术语在本文中,研究人员探索了一系列模块化系统如何执行由我们称为常规数据的合成数据生成过程制定的常见任务。他们给出了关键组件的定义,包括(1)规则以及这些规则如何形成任务,(2)模块以及这些模块如何采用不同的模型架构,以及(3)专业化以及如何评估模型。详细设置如下图1所示。规则。为了正确理解模块化系统并分析它们的优缺点,研究人员考虑了允许对不同任务要求进行细粒度控制的合成设置。特别是,必须在下面的等式1-3所示的数据生成分布上学习操作,他们称之为规则。给定上述分布,研究者定义一个规则作为他的专家,即规则r定义为p_y(·|x,c=r),其中c是表示上下文的分类变量,x是输入序列.任务。任务由公式1-3中所示的一组规则(数据生成分布)描述。不同的{p_y(·|x,c)}_c集合意味着不同的任务。对于给定数量的规则,研究人员在多个任务上训练模型以消除任何特定于任务的偏差。模块。模块化系统由一组神经网络模块组成,其中每个模块都对整体输出有贡献。这可以在以下功能形式中看到。其中y_m表示输出,p_m表示第m^th个模块的激活。模型架构。模型架构描述了为模块化系统的每个模块或整体系统的单个模块选择什么架构。在本文中,研究人员考虑了多层感知器(MLP)、多头注意力(MHA)和递归神经网络(RNN)。重要的是,规则(或数据生成分布)被调整以适应模型架构,例如基于MLP的规则。数据生成过程由于研究人员旨在通过合成数据来探索模块化系统,因此他们详细介绍了基于上述规则方案的数据生成过程。具体来说,研究人员使用了一个简单的专家混合(MoE)风格的数据生成过程,希望不同的模块可以专门针对规则中的不同专家。他们解释了三种模型架构的数据生成过程,即MLP、MHA和RNN。此外,每个任务下都有两个版本:回归和分类。多层板。研究人员定义了适合在基于模块化MLP的系统中学习的数据方案。在这个合成数据生成方案中,一个数据样本由两个独立的数字和一个从某种分布中采样的规则选择组成。不同的规则生成两个数的不同线性组合来给出输出,即线性组合的选择是根据规则动态实例化的,如下式4-6所示。MHA。我们现在定义了一个为在模块化MHA系统中学习而调整的数据方案。因此,他们设计了数据生成分布,每个规则分别由不同的搜索、检索概念和检索信息的最终线性组合组成。研究人员在下面的方程式7-11中以数学方式描述了这个过程。循环神经网络。对于循环系统,研究人员定义了线性动态系统的规则,其中可以在任何时间点触发多个规则之一。在数学上,此过程显示在下面的公式12-15中。模型一些先前的工作声称端到端训练的模块化系统优于单体系统,尤其是在分布式环境中。但是,对于这些模块化系统的好处以及它们是否真的根据数据生成分布进行专业化,还没有进行详细和深入的分析。因此,研究人员考虑了四种允许不同专业化程度的模型,即Monolithic(单体)、Modular(模块化)、Modular-op和GT-Modular。下面的表1显示了这些模型。单体。单体系统是一个大型神经网络,它将一整套数据(x,c)作为输入并从中做出预测y^。系统中显式烘焙的模块化或稀疏性不存在归纳偏差,并且完全依赖反向传播来学习解决任务所需的任何函数形式。模块化的。模块化系统由许多模块组成,每个模块都是给定架构类型(MLP、MHA或RNN)的神经网络。每个模块m将数据(x,c)作为输入并计算输出y^_m和置信度得分,跨模块标准化为激活概率p_m。模块化操作。模块化操作系统与模块化系统非常相似,只有一处不同。研究人员没有将模块m的激活概率p_m指定为(x,c)的函数,而是确保激活仅由规则上下文C.GT-Modular确定。真值模块化系统作为oracle基准,即完全专业化的模块化系统。我们表明,从Monolithic到GT-Modular,模型越来越多地包含模块化和稀疏性的归纳偏差。指标为了可靠地评估模块化系统,研究人员提出了一系列指标,这些指标不仅可以衡量此类系统的性能优势,还可以衡量两种重要形式,即崩溃和专业化。表现。第一组评估指标基于分布内和分布外(OoD)设置中的性能,反映了不同模型在各种任务上的性能。对于分类设置,我们报告分类错误;对于回归设置,我们报告损失。坍塌。研究人员提出了一组指标,Collapse-Avg和Collapse-Worst,以量化模块化系统遇到的崩溃量(即模块未充分利用的程度)。下面的图2显示了一个示例,您可以在其中看到未使用模块3。专业化。为了补充崩溃指标,我们还提出了以下指标集,即(1)对齐,(2)适应,和(3)逆互信息量化模块化系统获得的专业化程度。下面的实验表明,GT-Modular系统在大多数情况下(左)是最优的,这表明专业化是有益的。我们还看到,在标准的端到端训练模块化系统和单体系统之间,前者优于后者,但相差不大。这两个饼图共同表明,当前经过端到端训练的模块化系统没有实现良好的专业化,因此在很大程度上是次优的。然后,该研究着眼于特定的架构选择,并分析它们在越来越多的规则中的性能和趋势。图4显示,虽然一个完美的专业化系统(GT-Modular)会带来好处,但一个典型的端到端训练有素的模块化系统是次优的,无法实现这些好处,尤其是随着规则数量的增加。此外,虽然这种端到端模块化系统通常优于整体系统,但通常只有很小的优势。在图7中,我们还看到了不同模型训练模式在所有其他设置上的平均值,平均值包括分类错误和回归损失。可以看出,良好的专业化不仅会带来更好的表现,还会加快训练速度。下图显示了两个崩溃指标:Collapse-Avg、Collapse-Worst。此外,下图显示了三个专业化指标,对齐、适应和逆互信息,用于具有不同规则数量的不同模型: