当前位置: 首页 > 科技观察

裴健团队44页新作:了解深度学习模型的复杂性,这篇文章就够了

时间:2023-03-22 01:13:30 科技观察

近日,首篇深度学习模型复杂性综述《深度学习的模型复杂性:一项调查》上线arXiv。该论文的作者是著名大数据科学家裴健教授和他的两名学生,以及微软亚洲研究院的两名合作者。长达44页的综述从深度学习模型框架、模型规模、优化过程和数据复杂度等角度回顾了现有成果。模型复杂性一直是机器学习、数据挖掘和深度学习中的一个重要基础问题。模型的复杂性不仅会影响模型对特定问题和数据的可学习性,还会影响模型对未见数据的泛化能力。模型的复杂度不仅受模型架构本身的影响,还受数据分布、数据复杂度和信息量的影响。模型复杂性因此成为近年来越来越活跃的方向,在模型架构搜索、图形表示、泛化研究和模型压缩等领域至关重要。近日,第一篇深度学习模型复杂性综述《深度学习的模型复杂性:一项调查》在arXiv上线。并对这两个方向的最新进展进行了综述。该论文的作者是著名大数据科学家裴健教授和他的两名学生,以及微软亚洲研究院的两名合作者。深度学习的模型复杂度可以理解为“表达能力”和“有效模型复杂度”。在本文中,研究人员沿着模型框架、模型规模、优化过程和数据复杂性四个重要因素回顾了关于这两类模型的现有研究。最后,作者从模型泛化能力的理解、优化策略、模型选择和设计等方面探讨了其应用。可以说,要了解深度学习模型的复杂性,看完这篇文章就足够了。深度学习模型复杂度第一概述,四大重要因素首先,我们来看一下影响模型复杂度的因素。模型框架模型框架的选择会影响模型的复杂度。影响因素包括模型类型(如FCNN、CNN)、激活函数(如Sigmoid、ReLU)等。不同的模型框架可能需要不同的复杂度指标,方法之间可能无法直接比较。模型大小深度模型的大小影响模型的复杂性。一些常用的模型大小度量包括参数数量、带有参数数量的隐藏层数量、隐藏层宽度、过滤器数量和过滤器大小。在相同的模型框架下,模型的复杂度可以通过不同尺寸的相同复杂度度量来量化,从而成为可比较的标准。优化过程优化过程影响模型的复杂度,包括目标函数的形式、学习算法的选择、超参数的设置。数据复杂性训练模型的数据也会影响模型的复杂性。主要影响因素包括数据维度、数据类型和数据类型分布、用Kolmogorov复杂度衡量的信息量等。一般来说,复杂性研究的模型选择有两种:一种是指定模型(model-specific)方法专注于特定类型的模型并根据结构特征探索复杂性。例如,Bianchini等人。和哈宁等人。研究了FCNN的模型复杂性,Bengio和Delalleau专注于和积网络的模型复杂性。此外,一些研究还进一步提出了激活约束来约束函数的非线性。另一种方法是跨模型,当它涵盖多种类型的模型,而不是特定类型的多个模型时,因此可以应用于比较两个或多个不同类型的模型。例如,赫鲁尔科夫等人。在这些网络结构和张量分解中比较了建立连接对一般RNN、CNN和浅层FCNN的复杂性的影响。“表现力”和“有效模型复杂度”模型的表现力模型的表现力是指模型对不同数据的表现力,即性能。综述的主要分析方法从以下四个角度进行分析。深度效率分析深度学习模型如何从架构的深度获得更好的性能(例如,准确性)。宽度效率(widthefficiency)分析深度学习中每一层的宽度对模型的影响。可表达函数空间研究在不同参数的情况下,具有特定框架和指定大小的深度模型所表示的可表达函数。最后,VC维度和Rademacher复杂度是机器学习中表达能力的两个经典度量。模型的有效复杂度深度学习模型的有效复杂度也称为实际复杂度、实际表达能力和可用容量。它反映了由具有特定参数化的深度模型表示的函数的复杂性。深度学习模型的有效复杂度主要从以下两个方面进行讨论。有效复杂性的一般度量是设计深度学习模型的有效复杂性的定量度量。对高容量低现实现象的调查发现,深度学习模型的有效复杂性可能远低于其表达能力。一些研究探索了深度学习模型的有效复杂性和表达能力之间的差距。模型复杂度的应用本文主要介绍三个应用,理解模型泛化能力、模型优化、模型选择和设计。理解模型泛化深度学习模型总是过度参数化,即它们的参数远多于最优解和训练样本的数量。然而,人们经常发现大型过度参数化神经网络可以很好地泛化。一些研究甚至发现,更大、更复杂的网络通常更通用。这一观察与函数复杂性的经典概念相矛盾,例如著名的奥卡姆剃刀原则,后者更喜欢简单的定理。是什么导致了过度参数化深度学习模型的良好泛化?1.在零训练错误的情况下,在真实标签上训练的网络比在随机标签上训练的网络复杂度低得多,因此具有良好的泛化能力。2.增加隐藏单元个数或参数个数,从而减少泛化误差,有望降低复杂度。3.使用两种不同的优化算法,如果都导致训练误差为零,则泛化能力较好的模型复杂度较低。优化策略模型优化关注的是神经网络模型是如何建立的,为什么建立,以及为什么能够成功训练。具体来说,优化一个深度学习模型一般是确定模型参数,使损失函数最小化且非凸。损失函数的设计通常基于问题和模型的要求,因此通常包括性能指标和在训练集上评估的其他约束。模型复杂性被广泛用于提供优化可追溯性的指标。例如,神经网络的有效模型复杂性指标对于在优化期间监控模型更改处理以及了解优化过程的执行方式非常有用。这些指标还有助于验证优化算法新改进的有效性。Nakkiran等。研究了训练过程中的双重下降现象,使用有效的复杂性度量来测量可以获得零训练错误实现的数据集的最大大小。事实证明,双重下降现象可以表示为有效复杂性的函数。拉古等人。和胡等人。提出了新的正则化方法,并证明这些方法对于降低复杂性是有效的。模型选择与设计给定一个特定的学习任务,研究者如何为这个任务确定一个可行的模型结构。鉴于具有不同架构和不同性能的各种模型复杂性,研究人员如何从中选择最佳模型?这是一个模型选择和设计问题。通常,模型选择和设计基于预测性能和模型复杂性之间的权衡。一方面,高精度预测是学习模型的基本目标。该模型应该能够捕获隐藏在训练数据中的潜在模式,并以尽可能高的准确度进行预测。为了表示大量知识并获得高精度,模型具有高表达能力、大自由度、大体积,需要更大的训练集。就此而言,具有更多参数和更高复杂性的是有利的。另一方面,过于复杂的模型可能难以训练,并可能导致不必要的资源消耗,例如存储、计算和时间成本。应该避免不必要的资源消耗,尤其是在实际的大规模应用中。为此,更简单的模型优于更准确的模型。裴健,数据价值与数据资产管理评论作者,数据科学领域国际知名学者,加拿大西蒙弗雷泽大学计算机学院教授,??英国皇家学院院士加拿大学会、加拿大工程院、ACM和IEEE。近日,在O'ReillyMediaGroup前首席数据科学家BenLorica主持的播客中,裴健教授谈到了数据价值和数据资产管理。他认为,首先,数据是企业的核心资源,CFO和CDO应该共同关注数据资源的运营、使用和收益。其次,数据不仅仅是技术。企业迫切需要与经济学家组成核心团队,开发和运营数据产品和数据资产。第三,每个企业都有大量的上下游数据应用,企业数据的价值往往远大于它所感知的。将企业的业务数字化、数字化,运营好数据资产,具有重大的投资价值。2021年4月29日-5月1日,裴健教授等论文作者还将在SDM(SIAMInternationalConferenceonDataMining,SIAM国际数据挖掘会议)发表演讲,对论文内容进行解读。参考资料:https://www.sfu.ca/~huxiah/sdm21_tutorial.htmlhttps://youtu.be/VNesYXw-6hQ