当前位置: 首页 > 科技观察

因果推理与正则化榜单:权威专家盘点近50年来最重要的统计思想

时间:2023-03-14 12:21:42 科技观察

日常生活中,统计无处不在,每一个人和每一件事似乎都可以用统计数据来解释。随着人类进入大数据时代,统计在各个方面都发挥了不可或缺的作用。统计思想是统计实践工作和统计理论应用研究必须遵循的基本观念和指导思想。他们对统计的发展起到了指导作用。近日,哥伦比亚大学和阿尔托大学的两位著名统计研究人员撰写了一篇文章,总结了过去50年来最重要的统计思想,包括反事实因果推理、自举和基于模拟的推理、过度参数化模型和正则化优化、多层次模型、通用计算算法、自适应决策分析、稳健推理和探索性数据分析。除了详细描述这些统计思想的具体概念和发展,研究人员还概述了它们的共同特征,它们与现代计算和大数据的关系,以及它们在未来将如何发展和扩展。据研究人员称,本文旨在激发对统计学和数据科学研究中更大主题的思考和讨论。论文链接:https://arxiv.org/pdf/2012.00174.pdf这篇论文引起了社区的热烈讨论。图灵奖获得者、贝叶斯网络之父JudeaPearl等学者纷纷转发并发表了自己的看法。他说:“这篇论文将因果推理作为统计思想之一,这与芝加哥大学统计学教授StephenStigler撰写的《统计学七支柱》中的观点大相径庭。”这8种统计思想是根据经验和对文献的阅读进行分类的,而不是按时间顺序或重要性顺序。这些统计思想在1970年之前已有先例,无论是在理论统计文献中还是在各个应用领域的实践中。但在过去的50年里,它们都成长并演变成新的内容。下面一一阐述论文中列出的八个统计思想。过去50年来最重要的统计思想反事实因果推理该研究从统计学、计量经济学、心理计量学、流行病学和计算机科学中出现的一系列不同视角围绕因果推理的挑战展开。主要思想是因果识别是可能的,并且可以通过设计和分析严格地陈述这些假设,并以各种方式解决它们。关于如何将因果模型应用于真实数据的争论仍在继续,但过去50年来该领域的研究使得因果推理所需的假设更加精确,这反过来又推动了对这些问题的统计方法研究。因果推理方法在不同领域有不同的发展。undefinedOverparameterizedModelsandRegularization自1970年代以来统计学的一个重大变化是用大量参数(可能超过数据点)拟合模型的想法,并使用一些正则化方法来获得稳定的估计和良好的预测。使用大量参数拟合模型的主要思想是获得非参数或高度参数方法的灵活性,同时避免过度拟合。正则化可以作为参数或作为预测曲线上的惩罚函数来实现(Good和Gaskins,1971)。参数丰富模型的早期示例包括马尔可夫随机场(Besag,1974年)、样条曲线(Wahba和Wold,1975年,Wahba,1978年)和高斯过程(O'Hagan,1978年),随后是分类树和回归树(Breiman等人,1984年)、神经网络(Werbos,1981年;Rumelhart、Hinton和Williams,1987年;Buntine和Weigend,1991年;MacKay,1992年;Neal,1996年)、小波收缩(Donoho和Johnstone,1994年)、套索/马蹄铁和最小二乘法的其他变体(Dempster、Schatzoff和Wermuth,1977年;Tibshirani,1996年;Carvalho、Polson和Scott,2010年),此外还支持向量机(Cortes和Vapnik,1995年)和相关理论(Vapnik,1998).所有这些模型都具有随样本大小和参数缩放的特征,这些特征和参数并不总是可以直接解释,而只是更大预测系统的一部分。在贝叶斯方法中,首先可以在函数空间中考虑先验,然后间接导出模型参数的相应先验。在有足够的计算资源可用之前,上述许多模型的用途有限。但在图像识别(Wu等人,2004年)和深度神经网络(Bengio、LeCun和Hinton,2015年;Schmidhuber,2015年)领域,过度参数化模型继续发展。Hastie、Tibshirani和Wainwright(2015)将这项工作的大部分推广到稀疏结构的估计,但作者认为推广到正则化更合适,因为它还包括适合数据支持范围的密集模型。大部分工作都是在统计之外完成的,方法包括非负矩阵分解(Paatero和Tapper,1994)、非线性降维(Lee和Verleysen,2007)、生成对抗网络(Goodfellow等,2014)、和自动化编码器(Goodfellow、Bengio和Courville,2016年):这些是用于寻找结构和分解的无监督学习方法。随着统计方法的发展及其在更大数据集上的应用,研究人员开发了微调、调整和组合各种拟合推断的方法,包括堆叠(Wolpert,1992)、贝叶斯模型平均(Hoetingetal.,1999)、提升(Freund和Schapire,1997)、梯度提升(Friedman,2001)和随机森林(Breiman,2001)。多级模型多级或分层模型的参数因组而异,允许模型适应整群抽样。纵向研究、时间序列横截面数据、荟萃分析和其他结构化设置。在回归的上下文中,多级模型可以被视为特定的参数化协方差结构,或者被视为参数数量与数据成比例增加的概率分布。多级模型可以被视为贝叶斯模型,因为它们包括具有未知潜在特征或可变参数的概率分布。相比之下,贝叶斯模型具有多级结构,其中包含给定参数的数据和给定超参数的参数分布。通用计算算法只有现代计算才能改进建模。这不仅包括更大的内存、更快的CPU、高效的矩阵计算、用户友好的语言和其他计算创新,而且至关重要的是,改进统计算法以实现高效计算。过去五十年的创新统计算法是根据统计问题的结构开发的。在整个统计历史中,数据分析、概率建模和计算的进步结合在一起,新模型支持创新的计算算法和新的计算技术,为更复杂的模型和新的推理视角打开了大门。通用自动推理算法允许解耦模型开发,因此更改模型不需要更改算法的实现。自适应决策分析从1940年代到60年代,决策理论通常是通过效用最大化(Wald,1949年,Savage,1954年)、错误率控制(Tukey,1953年、Scheff'e,1959年)和经验贝叶斯分析(Robbins,1959年)发展起来的,1964)作为统计的基础。近几十年来,贝叶斯决策理论(Berger,1985年)和错误发现率分析(Benjamini和Hochberg,1995年)的后续工作取得了进展。决策理论也受到关于人类决策中启发式和偏见的外部心理学研究的影响(Kahneman、Slovic和Tversky,1982年;Gigerenzer和Todd,1999年)。人们也可以将决策制定视为统计应用领域,统计决策分析的一些重要发展涉及贝叶斯优化(Mockus,1974年,2012年,Shariari等人,2015年)和强化学习(Sutton和Barto,2018年),类似于工业中A/B测试的实验设计的复兴与工程应用中的电子学习有关。计算科学的最新进展是能够使用高斯过程和神经网络等高度参数化模型作为自适应决策分析函数的先验,并在模拟环境中执行大规模强化学习,例如创建AI控制的机器人、生成文本并参与围棋等游戏(Silver等人,2017年)。稳健推理稳健性的概念是现代统计学的核心,即即使模型的假设不正确也可以使用的想法。开发在现实与假设不符的情况下运行良好的模型是统计理论的重要组成部分。Tukey(1960)总结了该领域的早期研究,Stigler(2010)提供了历史回顾。继Huber(1972)等人的理论工作之后,研究人员开发了有效的方法,这些方法在实践中尤其重要,尤其是在经济学中,人们也对统计模型理解的不完善之处产生了敏感性。一般而言,稳健性对统计研究的主要影响不在于特定方法的开发,而在于Bernardo和Smith(1994)所称的M-开放世界(其中数据生成过程不是拟合概率模型类别的一部分))在案例的背景下评估统计程序的想法。Greenland(2005)认为,研究人员应该清楚地说明传统统计模型中没有包含的错误来源。稳健性问题与许多现代统计数据的密集参数化模型有关,这更普遍地影响模型评估(Navarro,2018)。探索性数据分析继Tukey(1962)之后,探索性数据分析的支持者强调了渐近理论的局限性和开放式探索和交流的好处(Cleveland,1985),并阐明了更一般的数据科学视角(Chambers,1993,Donoho,2017)).这符合统计建模的观点,后者更侧重于发现而不是检验固定假设。这不仅影响了图形方法的发展,也使统计领域从定理证明转向更开放和健康的视角,因为它从科学领域的数据中学习。例如,在医学统计领域,Bland和Altman在1986年发表的一篇被高度引用的论文提出了用于数据比较的图形方法,该方法取代了相关和回归分析。此外,研究人员还试图将探索性数据分析形式化:“探索性模型分析”(Unwin、Volinsky和??Winkler,2003年;Wickham,2006年)有时用于捕捉数据分析过程的实验性质,研究人员也被致力于在模型构建和数据分析过程中包括可视化(Gabry等人,2019年;Gelman等人,2020年)。这些统计思想之间的联系研究人员认为,以上八种统计思想很重要,因为它们既解决了现有问题,又创造了新的统计思维和数据分析方式。换句话说,每一种思维都是一种“密码”,其方法超越了狭义的统计范畴,更像是一种“研究品味”或“哲学思维”。这些统计思想之间有什么联系和相互作用?Stigler(2016)曾说过,在一些明显不同的统计领域背后有一些共同的主题。这种相互关联的观点也可以应用于最近的研究进展。例如,可以使用机器学习元算法优化正则化的过度参数化模型,这反过来可以导致对污染具有鲁棒性的推论。这些关联可以用其他方式表示,稳健的回归模型对应于混合分布,而混合分布又可以看作是多层次模型,可以通过贝叶斯推理进行拟合。深度学习模型不仅与一种多层逻辑回归有关,还与支持向量机中使用的样条和循环核心希尔伯特空间有关。另外,一个具体的统计模型与文中列举的八个统计思想有什么关系?这里的研究人员指的是有影响力的研究工作,例如风险回归、广义线性模型、空间自回归、结构方程建模、潜在分类、高斯过程和深度学习等。如上所述,在过去的50年里,统计推理和计算领域有许多重要的发展,所有这些都受到本文讨论的新模型和推理思想的启发和推动。需要注意的是,模型、方法、应用和计算之间是密切相关的。最后,研究人员表示,统计方法的研究可以与统计在自然科学和工程中的应用趋势联系起来。他们认为,在生物学、心理学、经济学和其他需要从统计数据得出结论的巨大变化的科学领域,可能存在再现性危机或再现性革命。作者简介安德鲁·盖尔曼,哥伦比亚大学统计学与政治学教授,著名统计学家。他获得了博士学位。inStatisticsfromHarvardUniversityin1990.Heisathree-timerecipientoftheOutstandingStatisticalApplicationawardfromtheAmericanStatisticalAssociationandwaselectedaFellowofAAASin2020.Heisalsotheauthorof《贝叶斯数据分析》(BayesianDataAnalysis)和其他书籍。谷歌学术论文总引用次数超过12万次。AkiVehtari,阿尔托大学计算概率建模副教授。主要研究兴趣包括贝叶斯概率理论与方法、贝叶斯工作流、概率规划、推理与模型诊断、模型评价与选择、高斯过程、层次模型等。他也是《Regression and other stories》和《Bayesian Data Analysis》的作者。谷歌学术论文总引用次数近4万次。