它们彼此之间非常不同,所有数据科学家都必须了解原因和方式!>来源:受SASInstitute图表的启发本文介绍了一个非常重要的内容,我们应该将其理解为数据科学领域的一个活跃部分。上面的维恩图最初由SASInstitute发布,但他们的图表显示统计和机器学习之间没有重叠,据我所知,这是一个疏忽。我已尽我最大的能力和理解重新创建了图表。这个维恩图非常恰当地提出了数据科学所有分支的区别和重叠。我想相信数据科学现在是一个总称,其他所有术语都可以描述为数据科学的一个分支,每个分支都不同,但又非常相似!机器学习与统计建模:这是一个古老的问题,每个数据科学家/机器学习工程师或任何刚进入这些领域的人都会遇到。在研究这些领域时,有时机器学习感觉与统计建模联系在一起,这让我们想知道如何区分两者,或者哪个标签最适合哪个模型。当然,机器学习是当今的流行语,但这并不意味着我们开始将统计模型标记为机器学习模型,因为与普遍看法相反,它们是不同的!让我们详细了解差异。这篇文章的流程是:机器学习和统计建模的定义什么时候使用机器学习和统计建模之间的区别?定义机器学习有助于将数据转化为智能行为的计算机算法开发感兴趣的研究领域称为机器学习。统计建模通常将统计模型指定为一个或多个随机变量与其他非随机变量之间的数学关系。因此,统计模型是“理论的形式表示”。既然无聊的长定义已经被排除在外,让我们更深入地了解这两个域之间的区别。机器学习和统计建模之间的区别1.历史和学术相关性统计建模自1950年代左右就已经存在,当时机器学习还没有开始出现。在1950年代,推出了第一个机器学习程序——Samuel的检查器。世界各地的所有大学现在都在启动他们的机器学习和人工智能项目,但并没有关闭他们的统计部门。机器学习与计算机科学系和单独的AI系一起教授,它们处理构建预测算法,这些算法能够通过学习从数据中“学习”而无需任何预先指定的规则来“智能”自己。上面ML的定义。在统计建模与数学系共同教授的地方,它的重点是建立模型,这些模型可以首先找到不同变量之间的关系,然后预测可以描述为其他自变量函数的事件。2.不确定性容忍这是两个领域之间的一个重要区别点。在统计建模中,我们关注许多不确定性估计(例如置信区间、假设检验),并且必须考虑必须满足所有假设才能相信特定算法的结果。因此,它们具有较低的不确定性容忍度。例如:如果我们建立一个线性回归模型,在使用这个模型的结果之前,我们必须检查是否满足以下假设:因变量和自变量之间的线性关系误差项的独立性误差项(残差)需要是正态分布meanindependentwithoutmulticollinearityrequiresvariance相反,如果我们建立逻辑模型,必须考虑以下假设:二元逻辑回归要求因变量是二元的,而有序逻辑回归要求因变量是有序的。观察结果必须相互独立。没有多重共线性的独立变量和对数几率的线性鉴于在机器学习算法中,需要很少或不需要假设。ML算法对统计线性、残差正态分布等没有严格要求,因此比统计模型灵活得多。因此,它们具有很高的不确定性容忍度。3.数据要求和方法统计模型不能在非常大的数据集上运行,它们需要具有少量属性和大量观察的可管理数据集。在统计模型中,属性的数量不应超过10-12,因为它们极易过度拟合(在训练数据集上表现出色,但在未见数据上表现不佳,因为它非常接近训练数据集,这是一种不受欢迎的情况)此外,大多数统计模型都遵循参数方法(例如:线性回归,逻辑回归)鉴于机器学习算法是学习者算法,学习它们需要大量数据。因此,他们需要具有大量属性和观察值的数据。越大越好!机器学习算法在某种程度上需要大数据。此外,大多数机器学习模型都遵循非参数方法(K最近邻、决策树、随机森林、梯度提升方法、SVM等)。什么时候使用它?这主要取决于下面解释的因素。我们将解释理论要点并举例说明。在以下情况下,统计模型应该是您的首选:不确定性很低,因为当您开始构建模型时,大多数假设都得到满足数据量不是很大如果您想隔离少量变量的影响确定性/误差范围是可以的各种自变量之间的交互作用比较小,可以预先指定需要高可解释性当要预测的结果不是强随机时,机器学习可能是更好的选择;例如,在视觉模式识别中,对象必须是E或不是E可以训练无限次的精确重复(例如每个字母重复1000次或将一个单词翻译成德语)来训练学习算法,当整体预测为否时描述任何一个自变量的影响或变量之间的关系的方法当目标人们对估计预测中的不确定性或所选预测变量的影响不太感兴趣数据量巨大不需要隔离任何特定变量的影响低可解释性,模型是“黑匣子”是可以的例如:如果您与信用卡公司合作并且他们想要建立一个跟踪客户流失的模型,他们很可能更喜欢统计模型将有10-12个预测变量,他们可以根据他们的业务领域知识解释和拒绝这些变量,在这种情况下,他们将不喜欢黑盒算法,因为需要interpretability胜过预测的准确性。另一方面,如果你正在为Netflix和亚马逊这样的客户工作,他们想要构建一个强大的推荐引擎,那么在这种情况下,结果的准确性比模型的可解释性更重要,因此机器学习模型将在这里就够了。这样,我们就到了本文的结尾。您可以在以下文章中了解有关数据挖掘和机器学习之间的区别以及前4大机器学习算法的完整详细信息:清楚地解释:机器学习与数据挖掘的区别定义、混淆、差异-全部解释清楚地解释:4机器学习算法定义、目的、流行算法和用例-全部解释观看此空间以获取有关机器学习、数据科学和统计的更多信息!快乐学习:)
