当前位置: 首页 > 科技观察

谈谈机器学习的趋势——三种新的学习范式

时间:2023-03-21 19:45:22 科技观察

介绍机器学习/深度学习是一个广阔的研究领域。它不年轻,但充满活力。好像有很多新方法和新技术。一般来说,传统的机器学习可以分为三种基本的学习范式,即监督学习、非监督学习和强化学习。但在本文中,我们根据模型的形式将现代机器学习分为三种新的学习范式,即混合学习、复合学习和简化学习。每个范式中都嵌入了一种学习方法和哲学,它们为扩展当前机器学习研究的能力和范围提供了巨大的潜力。混合学习——如何跨越有监督和无监督学习的界限,充分利用大量未标记数据?复合学习——如何以新的方式组合模型或组件以产生比各部分相加更好的结果强大的复合模型?减少学习——出于性能和部署目的,您如何减少模型大小和信息流,同时保持相同或更高的预测能力?机器学习的未来可能在于这三种学习范式,每一种都密切相关。2混合学习这种范式试图跨越监督学习和非监督学习之间的界限。由于标记数据的稀缺性和高成本,这种方法通常用于商业环境。从本质上讲,混合学习是对这个问题的答案,+如何使用监督方法来解决或组合无监督问题?首先,半监督学习因其在监督问题上的出色表现而在机器学习社区获得了动力。例如,一个设计良好的半监督GAN(生成对抗网络)在仅查看25个训练示例后就在MNIST数据集上实现了超过90%的准确率[1]。半监督学习是为存在大量无监督数据和少量监督数据的数据集而设计的。传统上,监督学习模型将在数据的一部分上进行训练,而无监督模型将在另一部分上进行训练,而半监督模型可以将标记数据与从未标记数据中提取的见解结合起来。半监督模型示例。半监督GAN(简称SGAN)是对标准对抗网络模型的改进。鉴别器不仅输出0/1来判断是否是生成图像,还输出类别信息(多输出学习)。基于通过学习鉴别器来区分真实图像和生成图像的思想,它能够在没有特定标签的情况下学习数据背后的结构。通过少量标记数据的额外增强,半监督模型可以通过少量监督数据实现最佳性能。您可以在此处阅读有关SGAN和半监督学习的更多信息[2]。GAN还参与了混合学习的另一个领域——自监督学习,其中无监督问题被明确定义为有监督问题。GAN通过引入生成器人为地创建监督数据;创建标签来识别真实/生成的图像。在无人监督的前提下,实施监督任务。或者,考虑使用编码器-解码器模型进行压缩。在最简单的形式中,它是一个中间有少量节点的神经网络,以某种瓶颈方式表示压缩。两侧分别对应编码器和解码器。自编码器例子。训练网络产生与输入相同的输出(从无监督数据人工创建监督任务)。由于中间有一个故意设置的瓶颈,网络无法直接传递信息。相反,它必须找到最好的方法将输入保存到更小的单元中,以便解码器可以合理地对其进行解码。训练后,编码器和解码器被拆解,可用于解码数据,或以非常小的形式压缩数据。它们也可以用于数据降维。再举一个例子,考虑大量文本(例如来自数字平台的评论)。通过一些聚类或流形学习方法,我们可以为文本集生成聚类标记,然后将它们视为标记。在解释了每个集群之后(例如,集群A表示对产品的评论抱怨,集群B表示积极反馈等),然后可以使用像BERT这样的深度自然语言处理(NLP)架构将新文本分类为所有这些聚类是在没有标记数据和较少人为参与的情况下进行的。这是将无监督任务转换为监督任务的又一出色应用。在绝大多数数据是无监督的时代,混合学习在有监督和无监督学习之间建立创造性的联系具有巨大的潜力和应用价值。3复合学习复合学习的目的不是利用一个模型的知识,而是利用几个模型的知识。人们相信,通过静态或动态信息的独特组合或注入,深度学习可以比单一模型在理解和性能方面更深入。迁移学习是复合学习的一个经典例子,其前提是模型的权重可以从在类似任务上预训练的模型中借用,然后在特定任务上进行微调。Inception或VGG-16等预训练模型具有旨在对图像进行分类的结构和权重。如果我要训练一个神经网络来识别动物(比如猫、狗等),我不会从头开始训练一个卷积神经网络,因为它会花费很多时间才能得到好的结果。相反,我会采用像Inception这样的预训练网络,它已经具有图像识别的基础知识,只需要对数据集进行一些额外的训练。类似地,NLP神经网络中的词嵌入根据词与其他词之间的关系,在实际意义上将词放置得更接近其他词(例如,苹果更接近橙子,而不是苹果更接近卡车)。可以将像GloVe这样的预训练嵌入放入神经网络中,以将已经有效的单词映射到有意义的数字实体。不太明显的是,竞争也会刺激知识的增长。一方面,GAN借鉴了复合学习范式,本质上是让两个神经网络相互对抗。生成器的目标是愚弄鉴别器,而鉴别器的目标是不被愚弄。模型之间的竞争将被称为对抗性学习,不要与另一种类型的对抗性学习相混淆,后者指的是设计恶意输入并利用模型中的弱决策边界。对抗性学习通常可以刺激不同类型的模型,其中模型的性能可以相对于其他模型的性能来表达。在对抗学习领域,还有很多研究工作要做,而生成对抗网络是对抗学习领域唯一突出的创新。另一方面,竞争性学习类似于对抗性学习,但它是在逐个节点的规模上执行的:节点竞争对输入数据子集做出响应的权利。竞争性学习在竞争层中实现,其中所有神经元都相同,除了一些随机分布的权重。将每个神经元的权重向量与输入向量进行比较,相似度最高的神经元被激活(output=1),其他神经元被去激活(output=0)。这种无监督技术是一种自组织映射[3]和特征探索[4]的核心组成部分。复合学习的另一个有趣示例是神经网络架构搜索。简单来说,强化学习设置中的神经网络(通常是递归的)学习为数据集生成最佳神经网络——该算法为您找到最佳架构!集成方法也是复合学习的主要方法。深度集成方法已被证明是非常有效的,端到端模型(例如,编码器和解码器)的堆叠在实际应用中变得越来越流行。许多复合学习正在寻找在不同模型之间建立联系的独特方法。前提是单个模型,即使是非常大的模型,其性能也会比几个小模型/组件的复合模型更差,其中每个小模型/组件被委托专门处理部分任务。例如,考虑为餐厅构建聊天机器人的任务。Chatbot模型设计实例。我们可以将其分为三个独立的模块:八卦、信息检索和动作,并为每个任务设计一个模型。或者,我们可以委托一个模型来执行所有三个任务。复合模型可以实现更好的性能,同时占用更少的空间。此外,这些具有非线性拓扑的网络架构可以使用Keras函数式API等工具轻松构建。为了处理越来越多的数据类型,例如视频和3D数据,研究人员必须构建更复杂的复合模型。在此处阅读有关复合学习及其未来发展的更多信息[5]。4简化学习模型的规模正在增加,尤其是在NLP中。最新的GPT-3模型有1750亿个参数。将它与BERT进行比较就像将木星与蚊子进行比较。深度学习的未来会更广阔吗?这可能很有争议?并不真地。诚然,GPT-3非常强大,但人类历史一再表明,成功的科学是对人类影响最大的科学。当学术界偏离现实太远时,它通常会淡出人们的视线。这是神经网络在20世纪后期被短暂遗忘的原因之一,因为可用数据太少以至于它毫无用处,无论这个想法多么巧妙。GPT-3是另一种可以写出令人信服的文本的语言模型。它的应用在哪里?例如,它确实可以生成查询的答案。然而,有更高效的方法可以做到这一点(比如遍历知识图谱,使用更小的模型BERT输出答案)。鉴于计算能力的下降,GPT-3的庞大规模(更不用说更大的模型)似乎根本不可行或没有必要。“摩尔定律有点死了。”—微软首席执行官萨蒂亚·纳德拉(SatyaNadella)。相反,我们正在走向一个嵌入式人工智能的世界。在这个世界上,智能冰箱可以自动订购杂货,无人机可以自行导航整个城市。强大的机器学习方法应该能够加载到PC、手机和小芯片上。这就需要轻量级人工智能,即在保持性能的同时使神经网络更小。事实证明,深度学习研究中的几乎所有内容都直接或间接地与减少与提高泛化和性能密切相关的必要参数数量有关。例如,卷积层的引入大大减少了神经网络处理图像所需的参数数量。循环层在使用相同权重的同时结合了时间的概念,使神经网络能够以更少的参数更好地处理顺序数据。嵌入层显式地将实体映射到物理上有意义的值,这样就不会把负担放在其他参数上。在一种解释中,dropout层明确阻止参数对输入的某些部分进行操作。L1/L2正则化保证网络利用所有的参数,保证每个参数都不会太大,每个参数最大化自己的信息价值。随着专业层的建立,网络对更复杂、更大数据的要求越来越低,网络寻求压缩的趋势更加明显。神经网络修剪试图去除对网络输出没有价值的突触和神经元。通过修剪,网络可以在几乎完全移除自身的同时保持其性能。神经网络剪枝实例。其他方法,例如PatientKnowledgeDistillation查找方法,将大型语言模型压缩成可以下载到用户手机的形式。这就是为谷歌翻译提供支持的谷歌神经机器翻译(GNMT)系统如何创建可以离线访问的高性能翻译服务。从本质上讲,简化学习围绕着以部署为中心的架构设计展开。这就是为什么大多数关于简化学习的研究都来自企业研究部门的原因。以部署为中心的设计的一个方面是不盲目地遵循数据集的性能指标,而是在部署模型时关注潜在的问题。例如,上述对抗性输入是旨在欺骗网络的恶意输入。在标志上喷漆或贴纸可能会诱使自动驾驶汽车加速超过极限。负责任的简化学习的一部分不仅是使模型足够轻巧有用,而且还要确保它能够适应数据集中未显示的边缘情况。简化学习在深度学习研究中可能受到的关注最少,因为我们在可行的架构规模上取得良好性能的成功远不如我们在具有无限数量的架构上实现最先进性能的能力那么令人信服。参数。不可避免地,当对更高百分比的追求逐渐消失时,正如创新历史所表明的那样,简化学习(实际上可以被视为实践学习)将得到更多应有的关注。5总结混合学习试图跨越有监督和无监督学习的界限。半监督学习和自监督学习等方法可以从未标记的数据中提取有价值的见解。随着无监督数据量呈指数级增长,这种方法非常有价值。随着任务变得越来越复杂,复合学习将任务分解为几个更简单的部分。当这些对应于不同部分的模型协同工作或相互对抗时,结果就是一个更强大的模型。深度学习进入炒作阶段,简化学习并没有受到太多关注,但足够实用和以部署为中心的网络设计很快出现。[1]半监督GAN:https://coursys.sfu.ca/2020sp-cmpt-726-x1/pages/SSL_GAN_report/view[2]SGAN和半监督学习:https://towardsdatascience.com/supervised-learning-but-a-lot-better-semi-supervised-learning-a42dff534781[3]自组织地图:https://en.wikipedia.org/wiki/Self-organizing_map[4]特征探索:https://在线图书馆。wiley.com/doi/pdf/10.1207/s15516709cog0901_5[5]复合学习:https://medium.com/analytics-vidhya/compositional-learning-is-the-future-of-machine-learning-22b56ad09edc[6]Andre叶:https://towardsdatascience.com/the-future-of-deep-learning-can-be-broken-down-into-these-3-learning-paradigms-e7970dec5502本文转载自微信公众号“机器学习与数学》,可通过以下二维码关注。转载本文请联系机器学习与数学公众号。