深度学习能够取得这样的成就,得益于它能够相对轻松地解决大规模非凸优化问题。尽管非凸优化是NP-hard,一些简单的算法,通常是随机梯度下降(SGD)的变体,在实际拟合大型神经网络时显示出惊人的有效性。在这篇论文中,来自华盛顿大学的几位学者写了《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》,他们研究了SGD算法在深度学习中的高维非凸优化问题上的不合理有效性。他们受到三个问题的启发:1.为什么SGD在高维非凸深度学习损失景观的优化中表现良好,而在其他非凸优化设置中,如策略学习、轨迹优化和推荐系统,鲁棒性明显下降?2.局部最小值在哪里?为什么在初始化权重和最终训练权重之间进行线性插值时,损失会平滑且单调地减少?3.为什么两个独立训练的模型具有不同的随机初始化和数据批处理顺序,性能几乎相同?另外,为什么他们的训练损失曲线看起来一样论文地址:https://arxiv.org/pdf/2209.04836.pdf该论文认为模型训练存在一些不变性,使得不同的训练表现几乎相同。为什么会这样?2019年,Brea等人。注意到神经网络中的隐藏单元具有排列对称性。简单地说:我们可以交换网络中隐藏层的任意两个单元,网络功能将保持不变。恩特扎里等人。2021推测这些置换对称性可能允许我们在不影响损失的情况下线性连接权重空间中的点。下面我们以论文的其中一位作者为例,来说明文章的主要思想,让大家更加清楚。假设你训练了一个模型A,你的朋友训练了一个模型B,这两个模型的训练数据可能不一样。没关系,使用本文提出的GitRe-Basin,你可以在权重空间中合并这两个模型A+B,而不影响损失。该论文的作者表示GitRe-Basin可以应用于任何神经网络(NN),他们首次证明了在两个独立训练(无预训练)模型(ResNets)之间,具有零障碍的线性连接可以实现。他们发现合并能力是SGD训练的一个属性,合并在初始化时不起作用,但会发生相变,因此随着时间的推移合并成为可能。他们还发现模型宽度与可合并性密切相关,即越宽越好。此外,并非所有架构都可以合并:VGG似乎比ResNets更难合并。这种合并方法还有其他优点,您可以在不相交和有偏差的数据集上训练模型,然后在权重空间中将它们合并在一起。例如,您在美国有一些数据,在欧盟有一些数据。由于某种原因,数据不能混合。您可以先训练单独的模型,然后组合权重,最后泛化到组合的数据集。因此,可以在不需要预训练或微调的情况下混合训练好的模型。作者表示想知道线性模式连接和模型修复未来的发展方向,可能会应用于联邦学习、分布式训练和深度学习优化等领域。最后提到3.2节的权值匹配算法只需要10秒左右的运行时间,所以节省了很多时间。论文第三章还介绍了A型和B型单元匹配的三种方法。对匹配算法不清楚的可以查看原论文。网友的评论和作者的质疑。合并两个模型(包括权重)可以扩展ML模型开发,并可能在模型的开源共同开发中发挥巨大作用。其他人则认为,如果置换不变性能够如此有效地捕获大部分等价性,它将阐明神经网络的理论研究。该论文的作者、华盛顿大学的SamuelAinsworth博士也回答了网友提出的一些问题。先是有人问,“论文中有没有提示在训练时针对独特的盆地?如果有办法抽象排列,训练速度可能会更快。”安斯沃斯回答说他没有想到这一点。他真的很想能够以某种方式训练得更快,但到目前为止,这被证明是非常困难的。问题在于SGD本质上是一种局部搜索,因此利用高阶几何并不是那么容易。也许分布式训练是一种可行的方法。还有人问是否适用于RNN和Transformers?Ainsworth说它原则上可行,但他还没有试验过。时间会证明一切。最后,有人提出,“这似乎对分布式训练“成真”很重要?DDPM(DenoisingDiffusionProbabilityModel)不是用ResNet残差块吗?”Ainsworth回答说,虽然他自己对DDPM不是很熟悉,但直言用它来做分布式训练会很兴奋。
