当前位置: 首页 > 科技观察

“回归分析”真的算作“机器学习”吗?

时间:2023-03-20 11:53:05 科技观察

是什么将“统计”与“机器学习”区分开来?这是一个被讨论过无数次的问题。关于这个主题已经写了很多,人们无法就它的好坏达成一致。但我发现,当谈到“统计”和“机器学习”的争论时,人们往往会“只见森林,不见树木”。AatashShah曾在他的文章中这样定义:“机器学习”是一种不依赖于规则编程,可以直接从数据中学习的算法。“建立统计模型”是指用数学方程式表示数据变量之间的关系。Shah从“机器学习”和“统计模型”的不同目的出发来定义两者。他将“机器学习”视为一种实践活动,将“统计建模”视为一种抽象理论。(我这里说的“统计模型”其实就是“统计”。)但实际上,“统计”和“机器学习”的关系要复杂得多。远远不够。对这种关系的哲学思考和研究很快演变为以下问题:“机器学习”是基于“统计学”吗?“机器学习”是一组传统的统计数据吗?这两个概念之间有什么共同点吗?有没有一个比较统一的概念?我认为这样构造和设计的所谓高层方法其实是错误的,也是浪费时间。那么在这种情况下,“回归分析”是不是“机器学习”的一种特殊形式呢?GregoryPiatetsky-Shapiro是KDnuggets的总裁,他在这个问题上的观点很好地反驳并打破了“回归可能太简单了,不能称为机器学习”。在一些机器学习研究专家看来,传统的“线性回归”可能过于简单,不能称为真正的“机器学习”,只能称为“统计”。但我认为“机器学习”和“统计”之间的界限实际上非常模糊和随意。比如C4.5的决策树算法,虽然不是很复杂,但是归类到“机器学习”。事实上,很多更高级、更先进的算法都是从线性回归衍生出来的,比如“岭回归”、“最小角回归”和LASSO,而这些算法中的大部分都被机器学习专家所使用。因此,要更好地理解这些算法,您必须首先了解基本的“线性回归”。因此,《线性回归》应该是所有机器学习研究者必备的工具之一。DiegoKuonen和CStatPStatCSci都是瑞士日内瓦大学“数据科学”专业的教授。他们分别是“数据咨询院”的CEO和CAO。他们通过以下见解解决了这个问题:每个监督分析模型(来自统计学、数据科学或机器学习)都假设模型输出的分布如何取决于模型输入。如果分析模型不做任何假设,那么除了那些观察到的数据之外,就没有理性分析的基础。因此,仅在“有效模型”(“有效模型”是指假设已被验证的模型)的基础上才得出结论是正确的。为了达到理解数据的最终目的,我们需要用到两个工具——“统计模型”和“机器学习模型”。Diego似乎不太关心使用了哪个工具,而是工具是否使用得当,是否建立了有效的模型,是否增加了最终的数据理解。如果最终的结论是基于无效的模型,那么争论统计学和机器学习之间的关系就毫无意义。我对这些问题的个人思考已经持续了很多年。当我第一次意识到像“线性回归”和“决策树”这样的简单概念可以被视为“机器学习”时,我感到震惊。因为在我之前的学习中,从来没有人跟我提过“机器学习”这个词。我认为这将是我专业水平的每个人的反应。仔细思考“数据研究”和“机器学习”的关系后,我认为数据研究其实就是一个研究过程,而机器学习是推动这个研究的工具。那么给“统计学”一个现代的定义就是——“统计学”是一门从数据中学习并能够测量、控制和交流不确定性的科学。比起这些复杂的概念,我更愿意将“统计研究”的定义简化为“大规模高速统计数据分析”。也简单理解一下,机器学习有三个组成部分:第一,数据;第二,模型或估计函数;第三,需要最小化的成本或损失。整个机器学习的raisondetre过程其实就是利用相似的统计问题来优化损失函数的过程。那么这个时候,让我们回到最初的问题——“线性回归”,作为“回归分析”最基本的形式,它是否满足这些要求呢?当然,这个问题还没有完全解决。假设这样一个场景:我有十个数据,把前九个数据的结果画出来,我让第十个数据回去测试,然后自己解方程,手工画出测试结果——这算是机器学习吗?如果不是(显然不是机器学习),那么“机器学习”到底是什么?与上述观点不同的是,MikeYeomans曾在他的文章中提到,我们应该简单地将机器学习视为统计学的一个分支。Kuonen同意这一观点,并指出虽然有人可能会争辩说“数据研究实际上是大规模、高速的统计数据”(DarylPregibon,1999),但他看到了他们方法的差异。我问过CannonGray的总裁KevinGray的意见,他把这个话题带入另一个问题,想知道是否有必要讨论这个话题。在此,我要感谢所有为本文做出贡献的人,尤其是DiegoKuonen教授的书面输入和反馈。