本文转载自雷锋网。深度学习是一个很大的领域,其核心是神经网络的算法,其规模由数百万甚至数十亿不断变化的参数决定。似乎每隔几天就会提出大量新方法。然而,总的来说,当前的深度学习算法可以分为三种基本的学习范式。这些学习方法和信念中的每一种都为提高当前深度学习的能力和范围提供了巨大的潜力和兴趣。混合学习-现代深度学习方法如何跨越监督和无监督学习的界限以适应大量未标记数据?组件学习——如何使用一种创造性的方法来链接不同的组件,以生成一个性能优于其各部分的简单总和的混合模型?简化学习——如何在保持相同或规模预测能力的同时减少模型大小和信息流以实现性能和部署目的?深度学习的未来主要在于这三种学习范式,每一种都紧密相连。混合学习是一种试图跨越监督学习和非监督学习边界的学习范式。由于标记数据的稀缺性和收集标记数据集的高成本,它通常用于商业环境。从本质上讲,混合学习就是这个问题的答案。我们如何使用监督学习方法来解决或链接无监督学习问题?例如,半监督学习在机器学习中越来越受欢迎,因为它能够在标记数据很少的监督问题上表现出色。例如,一个设计良好的半监督生成反婚姻网络(GenerativeantimarialNetwork)仅使用25个训练样本就在MNIST数据集上达到了90%以上的准确率。半监督学习是为具有大量未标记样本和少量标记样本的数据集而设计的。传统上,监督学习使用数据集的标记部分,而无监督学习使用数据集的另一个未标记部分。半监督学习模型可以将标记数据与从未标记数据集中提取的信息相结合。.作者创建的图像半监督生成对抗网络(简称SGAN)是对标准生成对抗网络的改进。判别器不仅输出0和1判断是否是生成图像,还输出样本的类别(多输出学习)。这是基于这样一种想法,即通过鉴别器学习区分真实图像和生成图像,可以在没有标签的情况下学习特定结构。通过对少量标记数据进行额外的增强,半监督模型可以用最少的监督数据实现最佳性能。您可以在此处阅读有关SGAN和半监督学习的更多信息。GAN还涉及到其他混合学习领域——自监督学习,其中将无监督问题明确定义为有监督问题。GAN通过引入生成器人工创建监督数据;创建的标签用于识别真实/生成的图像。在无监督的前提下,创建一个有监督的任务。另外,考虑使用编码器-解码器模型进行压缩。在最简单的形式中,它们是中间有少量节点的神经网络,代表某种形式的瓶颈和压缩,两侧的两个部分是编码器和解码器。作者创建的图像训练网络生成与输入向量相同的输入(从无监督数据手工制作的监督任务)。由于中间有一个刻意设计的瓶颈,网络无法被动地传递信息。相反,为了解码器能够很好地解码,它必须找到将输入信息保留到一个非常小的单元中的最佳方法。训练后,编码器与解码器分离,编码器用于压缩数据或编码数据的接收端进行传输,使用极少的数据格式传输信息,同时保证数据信息丢失最少。它还可以用于降低数据的维度。再举一个例子,考虑大量的文本集合(可能是来自数字平台的评论)。通过某种聚类或流形学习方法,我们可以为一组文本生成聚类标签,然后将它们作为标签处理(前提是聚类做得很好)。在解释每个集群后(例如,集群A代表对产品的评论抱怨,集群B代表积极反馈等),然后可以使用像BERT这样的深度NLP架构将新文本分类到这些集群中,所有这些都具有完全未标记的数据和最少的人为参与。这是将无监督任务转换为监督任务的另一个有趣应用。在绝大多数数据都是无监督的时代,通过跨越监督学习和无监督学习之间界限的混合学习建立创造性的桥梁具有巨大的价值和潜力。组件学习组件学习不仅使用一个模型的知识,还使用多个模型的知识。人们相信,通过独特的信息组合或输入(静态和动态),深度学习可以比单一模型获得更好的理解和性能。迁移学习是组合学习的一个非常明显的例子,它基于这样一种想法,即在类似问题上预训练的模型权重可用于对特定问题进行微调。构建像Inception或VGG-16这样的预训练模型来区分不同类别的图像。如果我要训练一个模型来识别动物(例如猫和狗),我不会从头开始训练一个ConvNet,因为它会花费太多时间来获得好的结果。相反,我会采用像Inception这样的预训练模型,它已经存储了图像识别的基本信息,然后在这个数据集(猫狗数据集)上训练额外的迭代次数。类似地,NLP神经网络中的词嵌入模型,它根据词的关系将词映射到嵌入空间中更接近其他词的位置(例如,苹果更接近句子,而不是苹果更接近卡车)。可以将像GloVe这样的预训练嵌入放入神经网络,从已经有效地将单词映射到数值的有意义的实体开始。不太明显的是,竞争还可以刺激知识增长。首先,生成对抗网络借鉴了复合学习范式,从根本上让两个神经网络相互对抗。生成器的目标是愚弄鉴别器,而鉴别器的目标是不被愚弄。模型之间的竞争将被称为“对抗性学习”,不要与另一种类型的对抗性学习混淆,后者是设计恶意输入并发现模型中的弱决策边界。对抗性学习可以刺激模型,通常是不同类型的模型,其中模型的性能可以相对于其他模型的性能来表达。对抗学习领域还有很多研究要做,而生成对抗网络是对抗学习中唯一杰出的创新。另一方面,竞争性学习类似于对抗性学习,但在逐个节点的规模上:节点竞争对输入数据子集做出响应的权利。竞争性学习是在“竞争层”中实现的,其中一组神经元除了一些随机分布的权重外都是相同的。将每个神经元的权重向量与输入向量进行比较,并激活具有最高相似度的神经元,即“赢家通吃”神经元(输出=1)。其他人被“停用”(输出=0)。这种无监督技术是自组织地图和特征发现的核心部分。组件学习的另一个例子是神经架构搜索。简单来说,在强化学习设置中,神经网络(通常是递归神经网络)学习为该数据集生成最佳网络架构——算法为您找到最佳架构,您可以在此处阅读了解更多信息理论并在此处使用python代码实现它。集成方法在组件学习中也占主导地位,深度集成方法已经证明了它们的有效性。编码器和解码器等模型的端到端堆叠变得非常流行。许多组合学习是关于寻找在不同模型之间建立联系的独特方法。它们都是基于这样的想法,即单个模型,即使是非常大的模型,通常会比几个小模型/组件表现更差,每个小模型/组件都被分配专门处理任务的一部分。例如,考虑构建一个餐厅聊天机器人任务。Imagecreatedbytheauthor我们可以将这个机器人分为三个独立的部分:问候/聊天、信息检索和动作机器人,并为每个部分设计一个模型。或者,我们可以委托一个模型来执行所有三个任务。毫不奇怪,作者创建的图像合成模型可以在占用更少空间的同时表现更好。此外,可以使用Keras函数式API等工具轻松构建这些类型的非线性拓扑。为了处理视频和3D数据等日益多样化的数据类型,研究人员必须构建创造性的组合模型。在此处阅读有关成分学习和未来的更多信息。简化学习在深度学习领域,尤其是NLP(深度学习研究最激动人心的领域),模型的规模在不断增大。最新的GPT-3模型有1750亿个参数。将它与BERT进行比较就像将木星与蚊子进行比较(好吧,不是字面上的意思)。深度学习的未来会更大吗?来源:TDS。可自由分享的图片可以说不,GPT-3非常有说服力,但它在过去一再表明,“成功的科学”是对人类影响最大的科学。学术界总是离现实太远,太模糊。在19世纪末,由于可用数据太少,神经网络在短时间内被遗忘,因此这个想法无论多么巧妙,都没有用。GPT-3是另一种可以写出令人信服的文本的语言模型。它的应用在哪里?是的,例如,它可以生成查询的答案。然而,有更有效的方法来做到这一点(例如,遍历知识图谱并使用更小的模型(如BERT)来输出答案)。在计算能力耗尽的情况下,GPT-3的巨大尺寸(更不用说更大的模型)是不可行或不必要的。“摩尔定律有点死了。”SatyaNadella,微软首席执行官相反,我们正在走向一个人工智能嵌入式世界,在这个世界中,智能冰箱可以自动订购杂货,无人机可以自行导航整个城市。强大的机器学习方法应该能够下载到PC、手机和小芯片上。这需要轻量级AI:在保持性能的同时使神经网络更小。这直接或间接地表明,在深度学习研究中,几乎所有的事情都与减少必要的参数数量有关,而这与提高泛化能力和性能密切相关。例如,卷积层的引入大大减少了神经网络处理图像所需的参数数量。循环层在使用相同权重的同时融入了时间的思想,使得神经网络能够以更少的参数更好地处理序列。嵌入层显式地将实体映射到物理上有意义的值,而不会增加额外的参数负担。在一种解释中,dropout层明确阻止参数对输入的某些部分进行操作。L1/L2正则化通过确保所有参数都不会变得太大来确保网络利用所有参数,并且每个参数都最大化其信息价值。随着这个特殊专用层的创建,网络需要越来越少的参数来处理更复杂和更大的数据。其他较新的方法明确寻求压缩网络。神经网络修剪试图去除那些对网络输出没有价值的突触和神经元。通过修剪,网络可以在移除几乎所有自身的同时保持其性能。资料来源:奥莱利。免费共享图片PatientKnowledgeDistillation等其他方法找到了将语言模型压缩为可以下载到用户手机等格式的方法。这是支持谷歌翻译的谷歌神经机器翻译系统的必要考虑,而谷歌翻译需要创建一个可以离线访问的高性能翻译服务。从本质上讲,简化学习侧重于以部署为中心的设计。这就是为什么大多数关于简化学习的研究都来自企业研究部门的原因。以部署为中心的设计的一个方面是不盲目地遵循数据集的性能指标,而是在部署模型时关注潜在的问题。例如,上述对抗性输入是旨在欺骗网络的恶意输入。在标志上喷漆或贴上贴纸,以诱使自动驾驶汽车加速超过限速。负责任的学习简化不仅使模型足够轻量级使用,而且确保它可以适应数据集中不存在的极端情况。在深度学习研究中,学习简化可能是最不被关注的,因为“我们在可行的架构规模下取得了良好的性能”与“我们在一个由数十个架构组成的架构中取得了良好的性能”是不一样的。-艺术表现”同样具有吸引力。不可避免地,当对更高分表现的炒作逐渐消失时,正如创新历史所表明的那样,简化学习——实际上是真正的动手学习——将得到更多应有的关注。总结混合学习的目标是跨越监督学习和无监督学习的边界,像半监督和自监督这样的方法可以从未标记的数据中提取信息,当无监督数据量呈指数级增长时,这是非常有价值的东西。随着任务变得越来越复杂,组件学习将一个任务解构为几个更简单的组件。当这些组件协同工作或相互对抗时,结果是一个更好的模型。简化学习并没有受到太多关注,因为深度学习正处于炒作阶段,但很快就会出现足够多的实践和以部署为中心的设计。
