当前位置: 首页 > 科技观察

YannLeCun畅谈谷歌研究:定向传播已经存在很长时间了,你们的创新在哪里?

时间:2023-03-13 21:06:44 科技观察

日前,学术界图灵奖获得者YannLeCun质疑谷歌的一项研究。前段时间,谷歌AI在其新研究《LocoProp: Enhancing BackProp via Local Loss Optimization》中提出了一个通用的多层神经网络层次损失构造框架LocoProp,在仅使用一阶优化器的情况下实现了接近二阶方法的性能。更具体地说,该框架将神经网络重新想象为层的模块化组合,其中每一层都使用自己的权重正则化器、目标输出和损失函数,最终实现性能和效率。谷歌通过实验验证了其方法在基准模型和数据集上的有效性,缩小了一阶和二阶优化器之间的差距。此外,谷歌研究人员表示,他们的局部损失构造方法是第一个使用平方损失作为局部损失的方法。来源:@GoogleAI对于谷歌的这项研究,有人评价说它很棒,很有趣。不过,也有人表达了不同的看法,其中就包括图灵奖获得者YannLeCun。他认为我们现在所说的targetprop有很多版本,有些可以追溯到1986年。那么,Google的LocoProp和它们有什么区别呢?来源:@YannLeCun即将成为UIUC助理教授的王昊涵同意LeCun的提问。他说,有时候,有些作者认为这样一个简单的想法是历史上的首创确实令人惊讶。或许他们做了一些不一样的事情,宣传组却迫不及待地出来认领了一切……来源:@HaohanWang不过,也有人对LeCun“不感冒”,认为他是出于竞争考虑提出质疑,而甚至“挑起战争”。LeCun对此回应称,他的问题与竞争无关,并举了他实验室前成员Marc'AurelioRanzato、KarolGregor、koraykavukcuoglu等人的例子,他们使用了一些版本的目标传播,现在他们都在GoogleDeepMind工作。资料来源:@GabrielJimenez@YannLeCun有人甚至取笑YannLeCun,“当你无法击败JürgenSchmidhuber时,就成为他吧。“YannLeCun是对的吗?让我们先看看Google的研究在说什么。它是否突出了创新?GoogleLocoProp:EnhancingBackpropagationwithLocalLossOptimization这项研究是来自Google的EhsanAmid、RohanAnil和ManfredK.Warmuth的合作.论文地址:https://proceedings.mlr.press/v151/amid22a/amid22a.pdf该论文认为深度神经网络(DNN)成功的关键因素有两个:模型设计和训练数据,但很少有研究者discuss一种更新模型参数的优化方法。我们训练一个DNN涉及最小化预测真实值与模型预测值之间差异的损失函数,并使用反向传播进行参数更新。最简单的权重更新方法是随机梯度下降,即在每一步中,权重相对于梯度向负方向移动。此外,还有高级的优化方法,如MomentumOptimizer,AdaGrad等。这些优化器通常被称为一阶方法,因为它们通常只使用来自一阶导数的信息来修改更新方向。还有更高级的优化方法,如Shampoo、K-FAC等,已被证明可以提高收敛性并减少迭代次数,并且这些方法能够捕获梯度的变化。有了这些附加信息,高阶优化器可以通过考虑不同参数组之间的相关性,为训练好的模型发现更有效的更新方向。缺点是计算高阶更新方向在计算上比一阶更新更昂贵。谷歌在论文中引入了一个训练DNN模型的框架:LocoProp,它将神经网络构想为层的模块化组合。通常,神经网络的每一层都对输入执行线性变换,然后是非线性激活函数。在这项研究中,网络的每一层都被分配了自己的权重正则化器、输出目标和损失函数。每层的损失函数被设计为匹配该层的激活函数。使用这种形式,可以最小化给定小批量的训练局部损失,并在层之间并行迭代。Google使用此一阶优化器进行参数更新,从而避免了高阶优化器所需的计算成本。研究表明,LocoProp在深度自动编码器基准测试中优于一阶方法,并且在没有高内存和计算要求的情况下与Shampoo和K-FAC等高阶优化器的性能相当。LocoProp:通过局部损失优化增强反向传播通常,神经网络被视为将每一层的输入转换为输出表示的组合函数。LocoProp在将网络分解为层时采用这种观点。特别是,LocoProp不是更新层的权重来最小化输出损失函数,而是应用特定于每一层的预定义局部损失函数。对于给定的层,选择损失函数以匹配激活函数,例如将为具有tanh激活的层选择tanh损失。此外,正则化项可确保更新后的权重不会偏离其当前值太远。与反向传播类似,LocoProp应用前向传播来计算激活。在反向传递中,LocoProp为每一层的神经元设置目标。最后,LocoProp将模型训练分解为跨层的独立问题,其中多个局部更新可以并行应用于每一层的权重。谷歌在深度自动编码器模型中进行了实验,深度自动编码器模型是评估优化算法性能的通用基准。他们对几种常用的一阶优化器进行了广泛的优化,包括SGD、带动量的SGD、AdaGrad、RMSProp、Adam,以及包括Shampoo、K-FAC在内的高阶优化器,并将结果与??LocoProp进行了比较。研究结果表明,LocoProp方法明显优于一阶优化器,与高阶优化器相当,同时在单个GPU上运行时速度明显更快。