当前位置: 首页 > 科技观察

谷歌大脑最新研究:自动学习Dropout模式的AutoML方法

时间:2023-03-22 17:21:07 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。深度神经网络往往存在过拟合的问题,这就需要Dropout、weightdecay等正则化方法的支持。最近的研究表明,如果使用Dropout“切断”神经元的结构,可以获得比随机替换更好的结果。问题是在实际应用中,针对不同的问题,需要手动设计使用结构的方法,调整dropout模式,泛化能力不足。那么,是否可以设计一种自动学习CNN、Transformer等深度神经网络Dropout模式的方法呢?现在,Google大神QuocV.Le的团队提出了一种叫做AutoDropout的方法。最新研究:AutoMLmethodtoautomaticallylearntheDropoutmode》>相关论文已入选AAAI2021自动化设计Dropout模式的过程AutoDropout的主要目的是针对特定场景自动化设计Dropout模式。研究人员为此设计了一个新的结构化dropoutpattern的搜索空间,这个搜索空间包含了很多已有的dropoutpatterns,我们以CNN为例,看看这个方法是如何实现的,CNN中的dropoutpattern搜索空间在CNN中,基础搜索空间的模式是一个连续的矩形,当矩形被平铺时,会产生一个Dropoutpattern。定义矩形的超参数是高度和宽度;定义平铺的超参数是步幅和重复次数。最新研究:AutoML自动学习Dropout模式的方法》>除了平铺矩形外,还需要引入两个几何变换e搜索空间:围绕空间中心旋转,沿各个空间维度切变。在获得dropout模式后,研究人员将其应用于批量归一化层的输出——根据研究人员的经验,将其应用于网络的其他地方通常会导致搜索过程中的训练不稳定。如果CNN中存在残差连接,controller会进一步判断是否对残差分支应用dropout模式。最新研究:AutoMLwaytoautomaticallylearnDropoutmode》>ControllermodelandsearchalgorithmAutoDropout的controller是通过强化学习训练的。最新研究:AutoML方法自动学习Dropout模式》>控制器实际上是一个Transformer网络,网络生成token来描述Dropout模式的配置。如下图所示,对于CNN中的每一层,8个token是requiredtoCreatetheDropoutmode.最新研究:AutoMLmethodtoautomaticallylearntheDropoutmode">但是,这样的搜索算法可能需要大量时间来训练。为此,研究人员还改进了并行性。最新研究:AutoML方法自动学习Dropout模式》>Transformer中的dropout模式搜索空间同样适用于Transformer。最新研究:AutoML方法自动学习Dropout模式》>与CNN最大的不同在于,在searchspaceModes可以灵活应用于Transformer层的多个子层,如query、key、value、softmax、outputprojection、residual等。因此,研究人员将独立的dropout模式应用于每个子层。最新研究:自动学习Dropout模式的AutoML方法》>实验结果为了验证AutoDropout的效果,研究人员将AutoDropout应用在CNN和Transformer模型中。对于CNN,主要应用于有监督的图像分类任务和半有监督的图像分类任务,对于Transformer,主要考虑语言模型和机器翻译,最新研究:AutoML方法自动学习Dropout模式》>最新研究:AutoML方法自动学习Dropout模式》>在CIFAR上可以看到-10和ImageNet,AutoDropout有效的提高了SOTA模型的结果,优于DropBlock等需要人工干预的方法,与VariationalDropout方法训练的Transformer-XL模型相比,AutoDropout也带来了更好的性能,最新研究:AutoML方法自动学习Dropout模式》>不过,研究人员也提到了缺点AutoDropout的ge是搜索成本高。关于作者本文有两位作者。HieuPham,谷歌大脑与卡耐基梅隆大学联合培养的博士生,毕业于斯坦福大学。最新研究:AutoMLwaytoautomaticallylearntheDropoutmode》>另一位作者是QuocV.Le,他是谷歌大脑创始人之一吴恩达的学生,谷歌大脑的幕后功臣之一。GoogleAutoML项目.最新研究:AutoML方法自动学习Dropout模式》>传送门论文地址:https://arxiv.org/abs/2101.01761