尽管深度学习和人工智能已经家喻户晓,但对于推动这场革命的统计学突破却知之甚少。在最近的一篇论文中,哥伦比亚大学统计学教授AndrewGelman和芬兰阿尔托大学计算机科学教授AkiVehtari详细介绍了过去50年来最重要的统计学思想。https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081作者将这些统计思想分为8大类:counterfactualcausalinferencebootstrapandsimulation-basedinference(自举和基于模拟的推理)过度参数化模型和regularizationBayesianmultilevelmodels(genericcomputationalgorithms)adaptivedecisionanalysis(adaptivedecisionanalysis)robustRobustinferenceExploratorydataanalysis1.Counterfactualcausalinference假设条件下,因果识别是可能的,并且可以严格地陈述这些假设条件,并通过设计和分析解决他们以各种方式。不同的领域发展了不同的因果推理方法。在计量经济学中,结构模型及其对平均治疗效果的影响,在流行病学中,是从观察数据中得出的推论。基于因果的识别是认知的核心任务,因此应该是一个可以数学形式化的可计算问题。路径分析和因果发现可以根据潜在结果构建,反之亦然。2.Bootstrapping和基于模拟的推理甚至在“大数据”分析开始之前,统计学就开始出现用计算代替数学分析的趋势。bootstrap方法将估计值视为数据的近似充分统计量,将bootstrap分布视为数据抽样分布的近似值。同时,由于bootstrap方法的普适性和计算实现简单,可以应用于传统解析逼近无法使用的场景,从而获得较大的影响。在置换测试中,重采样数据集是通过随机混洗目标值来打破预测变量和目标之间的(可能的)依赖关系而生成的。参数自举、先验和后验预测检查以及基于模拟的校准都从模型中创建复制数据集,而不是直接从数据中重新采样。在分析复杂模型或算法时,从已知数据生成机制中抽样通常用于创建补充或替代数学理论的模拟。3.过度参数化模型和正则化统计学的一个主要变化是使用一些正则化程序来拟合具有大量参数的模型以获得稳定的估计和良好的预测。这是为了避免过度拟合问题,同时获得非参数或高参数方法的灵活性。其中,正则化可以作为预测曲线上的参数或惩罚函数来实现。模型的早期示例包括:马尔可夫随机场、样条和高斯过程、分类和回归树、神经网络、小波收缩、最小二乘法的替代方法和支持向量机。贝叶斯非参数先验在无限维概率模型家族中也得到了巨大的发展,所有这些模型都具有随样本大小缩放的特征,并且参数并不总是有直接的解释,而是更大预测系统的一部分.4.贝叶斯多级模型(Bayesianmultilevelmodels)多级或层次模型具有因组而异的参数,使模型能够适应整群抽样、纵向研究、时间序列横截面数据、荟萃分析和其他结构化设置。多级模型可以被视为贝叶斯模型,因为它们包括具有未知潜在特征或可变参数的概率分布。相比之下,贝叶斯模型具有多级结构,数据给定参数,参数分布给定超参数。同样,贝叶斯推理不仅作为一种将先验信息与数据相结合的方式,而且作为一种解释推理和决策制定不确定性的方式。5.通用计算算法创新的统计算法是在统计问题结构的背景下开发的。EM算法、吉布斯采样、粒子滤波器、变分推理和期望传播以不同方式利用统计模型的条件独立结构。Metropolis-Hastings算法和HamiltonianMonteCarlo算法受统计问题的直接影响较小,类似于早期优化算法计算最小二乘和最大似然估计量的方式。一种称为近似贝叶斯计算的方法通过模拟生成模型而不是评估似然函数来获得后验推论,如果似然的分析形式难以处理或计算量大,则可以使用这种方法。6.自适应决策分析自适应决策分析的发展可以从效用最大化、错误率控制和经验贝叶斯分析,以及贝叶斯决策理论和错误发现率分析中看出。统计决策分析的一些重要发展涉及贝叶斯优化和强化学习,它们与A/B测试实验设计的复兴有关。计算能力的发展使得使用高斯过程和神经网络等参数丰富的模型作为函数先验,进行大规模强化学习成为可能。示例包括创建AI来控制机器人、生成文本和玩围棋等游戏。大部分工作是在统计之外完成的,使用非负矩阵分解、非线性降维、生成对抗网络和自动编码器等方法,所有这些都是寻找结构和分解方法的无监督学习。7、稳健推理(robustinference)稳健性概念是现代统计学的核心,其意义在于即使模型的假设不正确,仍然可以使用。统计理论的一个重要部分是开发在违反这些假设时仍能正常工作的模型。一般来说,稳健性在统计研究中的主要影响不在于具体方法的发展,而在于数据生成过程不属于拟合概率模型范畴的统计程序的评估。研究人员对与表征现代统计数据的密集参数化模型相关的稳健性的担忧将对模型评估产生更普遍的影响。8.Exploratorydataanalysis(探索性数据分析)探索性数据分析强调渐近理论的局限性以及开放式探索和交流的相应好处。这符合统计建模的观点,后者更侧重于发现而不是固定假设的检验。计算的进步使从业者能够快速构建大型复杂模型,从而产生了统计图形对于理解数据、拟合模型和预测关系很有用的想法。总结由于对建模的需求不可避免地随着计算能力的增长而增长,分析总结和近似值的价值也随之增长。同时,统计理论可以帮助理解统计方法的工作原理,数理逻辑可以激发数据分析的新模型和方法。作者认为,这些方法开辟了新的统计思维方式和分析数据的新方法。反事实框架将因果推论置于统计或预测框架内,在该框架中,可以根据统计模型中未观察到的数据精确定义和表达因果估计,并与调查抽样和缺失数据插补的想法相关。Bootstrapping打开了通往隐式非参数建模形式的大门。复杂调查、实验设计和其他无法分析计算的数据结构的偏差校正和方差估计。过度参数化模型和正则化基于从数据中估计模型参数的能力来形式化和概括现有实践,以限制模型的大小,这与交叉验证和信息标准有关。除其他事项外,正则化允许用户在模型中包含更多预测变量,而不必担心过度拟合。多级模型将“经验贝叶斯”技术形式化,该技术从数据中估计先验分布,使用在更广泛的问题类别中具有更高计算和推理稳定性的方法。通用计算算法使应用从业者能够快速拟合因果推理、多层次分析、强化学习和许多其他领域的高级模型,从而对统计学和机器学习的核心思想产生更广泛的影响。自适应决策分析将最优控制的工程问题与远远超出经典实验设计的统计学习领域联系起来。稳健推理允许以正式评估和建模不同程序的方式来构建这些问题,以处理离群值和其他模型错误指定的模糊问题,而稳健推理的思想为非参数估计提供了信息。探索性数据分析将图形技术和发现推向了统计实践的主流,使用这些工具可以更好地理解和诊断适合数据的新型复杂概率模型的问题。关于作者AndrewGelman是哥伦比亚大学的统计学教授。曾获美国统计学会杰出统计应用奖,40岁以下统计学会主席委员会杰出贡献奖。
