当前位置: 首页 > 科技观察

大数据、统计学与机器学习是怎样的关系

时间:2023-03-14 00:13:36 科技观察

大数据、统计和机器学习之间有什么关系?转载本文请联系晓阳数据站公众号。大数据、统计和机器学习之间有什么关系?这三个话题都是当下流行的概念。理清关系,有助于后续研究中的目标。如果只看结论,可以直接翻到最后一章。|0x00统计分析与实证研究统计学是一门综合科学,它通过对数据的查找、整理、分析和描述,来推断被测对象的性质,甚至预测对象的未来。为什么要谈“统计”?很简单,统计分析奠定了现代科学即实证研究的方法论基础。统计推断是有依据的。研究的对象是一个服从一定规律的随机过程,观测数据就是从这个随机过程中产生的。这个随机过程称为数据生成过程。统计学是根据观察到的数据对概率规则进行建模和推断,可应用于实际场景,如检验经济假设、评估公共政策的效果等。在统计建模中,一般假设的DGP(DataGeneratingProcess)概率规律可以用一个独特的数学概率模型来描述,该模型通常将因变量与一些解释变量或预测变量联系起来,同时假设该数学模型的函数形式已知,但包含低维未知参数,是一种参数化建模方法,在统计学中应用最广泛。统计推断的主要目的是观察数据,估计模型的未知参数值,将经济理论或假设转化为统计参数假设,然后进行参数假设检验,为实证结果提供经济解释。通常的做法是根据预设的显着性水平(如5%)来判断参数估计值或参数假设是否具有统计显着性。如果它在统计上是显着的,则该变量相应地被认为是显着的决定因素。在互联网行业,常见的A/B测试也被用来验证一个idea是否具有统计显着性。但上述方法至少需要六个关键假设:随机性,DGP是一个随机过程;唯一性,DGP的概率规律由一个唯一的数学概率模型来描述;正确性,有一个唯一的未知参数,使得概率模型和DGP概率规律是一致的;具有代表性,描述观察数据的随机样本不存在样本选择偏差;samplingtoinferthepopulation,利用包含DGP信息的样本数据推断出人口分布的特征;统计显着性,利用统计检验量的P值,在预设的显着性水平(如5%)下,判断解释变量或预测变量是否重要,并据此给出逻辑解释。如果上面的概念非常难理解,那就简单记住下面这句话:Summarizedataandmodels;推断结论是否合理;回答重要的社会问题;认识并改善我们的日常行为模式。|0x01大数据特征总体上,我们可以认为大数据是继信息革命之后的第四次革命,尤其是随着互联网和移动互联网的普及以及物联网的兴起,数据呈指数级增长。大数据最显着的特点是它的“4V”特性,即:体量(massiveness):从多个渠道采集的数据,包括日志、音视频、地理位置等信息,但经过Hadoop后存储压力得到缓解;Velocity(高速):大数据的产生、传播和计算速度是前所未有的,需要实时分析而不是批量分析。这也是Flink迅速崛起的原因;传统的结构化数据也有大量的非结构化数据。“数据湖”的出现也是为了解决非结构化数据的计算问题;Veracity(真实性):大数据的体量巨大,但信息密度低,因此如何去伪存真,有效地总结和提取大数据中的有效信息非常重要。虽然我们可以熟练地背诵大数据的4V原理,但它背后的深刻概念和技术挑战却一直被忽视。从统计学的角度,大数据的4V特性会有一些新的解读。体积(质量):质量有双重含义。一是大数据的样本量非常大,二是可以在一定时间内从不同维度描述DGP;Velocity(高速):在高频率下即使在实时条件下记录或收集数据也使得准实时数据分析和预测成为可能;Variety(多样性):统计学长期以来专注于结构化数据,但不同形式数据的组合将提供比传统数据更多的数据。有价值的信息,例如社交媒体的非结构化信息;Veracity(真实性):统计的本质是有效地从数据中提取有价值的真实信息。很多经典的统计方法虽然有用,但也需要开发新的方法和新的工具。|0x02机器学习及其本质与统计学一样,机器学习也是一种重要的大数据分析工具。虽然机器学习由于云计算的出现得到了迅速的发展和普及,但是机器学习并不能代替统计学。例如,虽然机器学习在改进样本外预测和模式识别方面非常有用,但统计学仍然可以在推理分析、因果分析、结果解释等方面发挥很大作用。可以说机器学习和统计学是相辅相成的,两者的交叉融合可以为数据科学提供新的方法和工具。机器学习可以分为三大类:监督学习、非监督学习和强化学习。监督学习基于经过训练的数据构建算法。训练数据包含一组训练示例。每个训练示例都有一个或多个输入和输出,它们成为监督信号。通过目标函数的迭代优化,监督学习算法探索找到一个可以用来预测新输入对应的输出的函数。无监督学习只是在包含输入的训练数据中寻找结构,识别训练数据中的共性,并根据是否存在这种共性与每个新数据集进行判断。强化学习是研究算法如何在动态环境中执行任务以最大化累积奖励。很多学科都有这方面的研究,比如博弈论和控制论,常用于自动驾驶和人类博弈竞赛。因此,机器学习本质上是一个数据优化和算法优化的问题,而数学优化为该领域提供了理论、方法和应用。|0xFF大数据与机器学习与统计学的关系主要有四点。第一,大数据的出现并没有改变统计学通过随机抽样推断总体分布特征的基本思路。基本统计方法,如充分性原理和因果推理,仍然适用于大数据分析。此外,大数据提供了大量传统数据所没有的信息,极大地扩展了统计研究的边界,例如非结构化数据的影响,而实时数据甚至带来了实时预测和高效率的可能性。频率统计建模。其次,由于样本量巨大,大数据很可能改变统计模型中根据统计显着性选择重要变量的习惯,研究范式将从参数估计的不确定性转向模型选择的不确定性。统计建模和推理出现了新的挑战。第三,机器学习的兴起得益于大数据的爆发式发展。与统计学类似,机器学习也存在并特别关注样本偏差问题。机器学习的本质是数据优化问题和实现优化问题的计算机算法问题,比统计参数建模更通用、更灵活。第四,在大数据的加持下,机器学习与统计推理的结合有望为数据科学提供一些新的发展方向,包括变量降维、准确预测、因果识别等。