当前位置: 首页 > 科技观察

机器学习的本质是数理统计?答案可能没那么简单

时间:2023-03-21 14:10:53 科技观察

可能很多刚接触AI的小白都有过这样的疑问:机器学习和数理统计的本质区别是什么?不都是在玩数据吗?从传统数据分析师的角度来看,这个问题的答案很简单,无外乎以下两点:机器学习本质上是一种算法,通过数据分析来学习,不依赖于面向规则的程序设计;统计建模是一组以数据为基础,利用数学方程探索变量变化规律的标准化过程。总结一下,机器学习的关键词就是预测、监督学习和无监督学习。另一方面,数理统计是抽样、统计和假设检验的科学。这个答案看似无懈可击,但机器学习与数理统计之间的关系远非如此简单。按照数理统计大师拉里·沃瑟曼的说法,其实“这两个学科(机器学习和数理统计)关注的是同一件事,即我们可以从数据中学到什么?”根据他个人从博客中总结出来的,下面几个数理统计和机器学习中的常用术语其实是同一个意思。此外,另一位学术专家,斯坦福大学著名统计学和机器学习大师罗伯特·蒂布希拉尼(RobertTibshirani)一直称机器学习为“美化统计学”。事实上,今天,机器学习和统计技术已经成为模式识别、知识发现和数据挖掘领域的常用技术。虽然根据SAS在2014年发布的统计结果(如下图),机器学习和数理统计之间的关系是相互独立的,但实际上这两年它们之间的界限越来越模糊,甚至有相互融合的趋势。这样一来,机器学习和数理统计确实有着相同的目标:从数据中学习。他们的核心是讨论如何从数据中提取人们需要的信息或规则。但是,这两个学科在研究方法上有本质的区别。不同点首先,机器学习是一个比较新的领域,是计算机科学和人工智能的一个分支,更关心如何建立一个系统来分析数据,而不是具体的程序指令。另一方面,统计建模完全是数学的一个分支。虽然现在在廉价计算能力和海量可用数据的支持下,数据科学家已经可以训练计算机通过数据分析进行学习,即机器学习。但是统计建模的历史比机器学习要长得多,而且实际上早于计算机。undefined