极限学习机有些人认为极限学习机是有史以来最聪明的神经网络发明之一,以至于甚至有专门讨论ELM神经网络的会议建筑学。ELM的支持者认为它可以执行标准任务,训练时间呈指数级增长,训练示例很少。另一方面,除了它在机器学习社区中不大,它还受到包括YannLeCun在内的深度学习专家的广泛批评,他们认为它的宣传和可信度远远超过应有的水平。总的来说,人们似乎认为这是一个有趣的概念。ELM架构由两层组成:第一层是随机初始化和固定的,而第二层是可训练的。本质上,网络将数据随机投影到一个新空间并执行多元回归(当然,然后将其传递给输出激活函数)。随机投影需要一种降维(或放大)方法,将随机矩阵乘以输入——虽然这个想法听起来很奇怪,但从策略分布中随机抽取实际上效果很好(我们将在后面的直观类比中看到这一点)).它会施加某种随机失真,以一种好的方式(如果正确完成)会产生噪音并允许网络的其余部分进行调整,从而为学习机会打开新的大门。事实上,正是由于这种随机性,极限学习机已被证明具有隐藏层中相对较小节点的一般逼近定理的能力。事实上,随机投影的想法早在80年代和90年代就已经以神经网络开发领域的名义进行了探索,这是对ELM并不是什么新鲜事物的批评。它只是用新名称包装的旧研究。许多其他架构,例如回声状态机和液体状态机,也利用随机跳过连接和其他随机源。然而,也许ELM与其他神经网络架构之间的最大区别在于它不使用反向传播。相反,由于网络的可训练部分只是简单的多元回归,因此通过以几乎相同的方式拟合回归中的系数来训练参数。这代表了人们认为神经网络训练方式的根本转变。自从基本的人工神经网络出现以来,几乎所有开发的神经网络都通过在整个网络中来回传递信息信号,使用迭代更新(或“调优”,如你所愿)进行了优化。由于这种方法已经存在了很长时间,因此必须假设它已经作为最佳方法进行了试验和测试,但研究人员承认标准反向传播存在很多问题,例如训练缓慢或卡在极小的局部最小值现象。另一方面,ELM使用更多涉及数学的公式来设置权重,并且在不深入研究数学的情况下,可以想象使用随机层来补偿计算成本更高的细节,否则这些细节将被替换。从技术上讲,如果有帮助的话,一个非常成功的dropout层是一个随机投影。由于ELM既使用随机性又不使用反向传播,因此它们的训练速度比标准神经网络快得多。另一方面,他们是否表现更好是另一个问题。有人可能会争辩说,与标准神经网络相比,ELM更好地反映了人类的学习方式(尽管两者相差甚远),因为它可以仅用几个示例非常快速地解决更简单的任务,但是迭代神经网络需要运行在至少,数千个样本可以概括并表现良好。与机器相比,人类可能有其弱点,但他们在示例学习比(示例是给定的训练示例的数量)方面的巨大优势使我们真正变得聪明。极限学习机的概念非常简单——简单到有些人会说它愚蠢。伟大的计算机科学家和深度学习先驱YannLeCun宣称“随机连接第一层几乎是你能做的最愚蠢的事情”,并且根据这个论点,他引用了更先进的方法来非线性变换向量的维度,例如在SVM,通过使用反向传播进行本地化得到进一步增强。LeCun说,本质上,ELM本质上是一个具有更差转换内核的SVM。ELM能够解决的有限范围的问题可以使用SVM更好地建模。唯一的反驳是使用“随机内核”而不是专用内核的计算效率,因为支持向量机是出了名的高功率模型。ELM可能带来的性能损失是否值得是另一个讨论。>一种比较ELM和SVM的方法。然而,不管是否像ELM,在简单的神经网络和其他模型中使用随机投影或过滤器已经在各种(现在被认为是“简单的”)模型中凭经验证明在标准训练任务中表现良好。虽然这些表现不是一流的,一个经过严格审查并被认为在概念上几乎可笑的架构可以在最新的神经网络排行榜上占据主导地位——加上它具有更轻量级的架构和更少的计算——至少很有趣。为什么使用固定的随机连接有效?这是一个百万美元的问题:很明显,如果ELM的性能与普通的反向传播神经网络一样好(或更好),那么ELM中具有随机连接的某些东西可以正常工作。虽然它的数学不直观,但《极限学习机器》原论文的作者BinhuangGuang举例说明了这个概念(出于语言、简洁和深度学习的相似性而编辑):你填满一个湖,直到水平表面充满石头而不是水,并且然后你可以看到空湖的底部是一条曲线(代表数据的函数)。工程师们仔细计算了湖的大小、填满湖的石头的大小,以及在优化任务中发挥作用的许多其他小因素。(优化许多适合该功能的参数。)>将石头填入湖中的糟糕但可以接受的工作。另一方面,农村的农民炸毁了附近的山脉,并开始投掷或推下落入湖中的石块。当一个农村的农民捡起一块石头(隐藏层节点)时,他不需要知道湖的大小,也不需要知道石头的大小,他只是随机地把石头扔出去,铺开。如果岩石开始在某个区域的地表上方堆积,农民会用锤子将其砸碎(β参数-各种正则化)以平整地表。农民们已经填满了湖水,尽管工程师们仍在计算岩石的高度和体积以及湖水的形状。对于农民来说,他扔多少石头并不重要:他能更快地完成工作。虽然这个类比在不同场景下直接应用存在一些问题,但它是对ELM本质和模型中随机性作用的直观解释。ELM的本质是天真并不总是坏事:简单的解决方案可能能够更好地解决不那么复杂的问题。要点极限学习机使用固定的随机第一层和可训练的第二层。这本质上是随机投影,然后是多元回归。支持者表示,在MNIST这样的简单场景中,ELM能够通过很少的示例快速学习,其优点是易于编程,无需选择架构、优化器和损失等参数。另一方面,反对者认为SVM在这些情况下更好,ELM不适合更复杂的问题,这只是对一个非常古老的想法的重新命名。ELM通常在复杂任务上表现不佳,但它已被证明在更简单的任务上表现良好,这是探索更轻量级架构、非反向传播模型拟合和随机投影推理世界的好方法。至少,极限学习机(或者你想用的任何名字)是一个有趣的想法,每个深度学习爱好者都应该知道。您对ELM有何看法?
