当前位置: 首页 > 科技观察

什么时候以及为什么基于树的模型可以胜过神经网络模型?

时间:2023-03-15 00:28:30 科技观察

简介基于树的模型与神经网络没有什么不同。神经网络通常被认为是机器学习的圣杯,知道一切并解决一切,主要是因为它们的复杂性。另一方面,基于树的方法并没有受到同样的敬畏和炒作,主要是因为它们明显的简单性。尽管它们看起来如此不同,但它们只是同一枚硬币的两面。基于树的方法通常优于神经网络。任何Kaggler都知道XGBoost是迄今为止最佳竞赛提交的最受欢迎的选择。本质上,基于树的方法和神经网络属于同一类,因为它们通过逐项分解来解决问题,而不是通过寻找一个复杂的方法来分离整个数据集。很明显,基于树的方法逐渐沿着不同的特征划分特征空间以优化信息增益。不太明显的是,神经网络对这个任务做同样的事情。每个神经元监视特征空间的特定部分(具有各种重叠)。如果输入落入该空间,则某些神经元会被激活。神经网络采用概率观点来逐块模型拟合,而树采用确定性观点。在任何情况下,它们的性能都取决于模型的深度,因为它们的组件与部分特征空间相关。组件太多的模型——树是节点,网络是神经元——会过度拟合,而组件太少的模型根本无法给出有意义的预测。(两者都是从记忆数据点开始,而不是学习概括。)请参阅一般逼近定理,以更直观地了解神经网络如何划分特征空间。尽管决策树有许多强大的变体,例如随机森林、梯度提升、自适应提升和深度森林,但基于树的方法通常本质上是神经网络的简化版本。基于树的方法通过垂直和水平分割逐个解决问题,以最小化熵(优化器和损失)。神经网络通过操纵激活函数的形状逐步解决这个问题。基于树的方法是确定性的,而不是概率性的。这导致了一些很好的简化,比如自动特征选择。在决策树中激活的条件节点类似于激活的神经元(信息流)。神经网络拟合参数变换输入并直接或间接激活后续神经元。决策树明确地拟合参数以指导信息流。(这是确定性而非概率性的结果。)信息在两个模型中的流动方式相似,只是在树中以更简单的方式流动。当然,这是一个抽象的甚至是有争议的说法。建立这种联系有很多心理障碍。无论如何,这对于理解何时以及为什么基于树的方法比神经网络更好很重要。表格数据或表格形式的结构化数据对于决策树来说是很自然的。大多数人认为,神经网络对于表格数据的回归和预测有点过分了,因此我们进行了一些简化。我们选择1和0,而不是概率,这是两种算法之间差异的主要来源。因此,树可以在不需要概率细微差别的情况下成功,例如结构化数据。例如,基于树的方法在MNIST数据集上表现良好,因为每个数字都有几个可定义的特征。概率不是必要的计算。这根本不是一个非常复杂的问题,这就是为什么设计良好的集成树可以达到相同的水平,甚至比现代卷积神经网络更好。通常,人们很想说“树只记得规则”,这是真的。这与神经网络相同,它会记住更复杂的、基于概率的规则。神经网络不是为x>3之类的条件明确给出真/假,而是将输入放大到非常高的值以产生1的S形值或产生一些连续表达式。另一方面,由于神经网络非常复杂,可以用它们做很多事情。卷积层和循环层是神经网络的优秀变体,它们运行良好,因为它们处理的数据通常需要微妙的概率计算。很少有图像可以用1和0建模。决策树值无法处理具有很多中间值(例如0.5)的数据集,这就是为什么它在像素值几乎全是黑色或白色的MNIST上运行良好的原因。同样,文本包含太多信息和太多异常,无法仅用确定性术语来表示。这也是神经网络主要用于这些领域的原因,也是早期(21世纪初)神经网络研究因无法获取大量图像和文本数据而停滞不前的原因。神经网络的其他常见用途仅限于大量的预测,例如YouTube的视频推荐算法,它是如此之大,以至于它必须涉及概率。去公司的任何数据科学团队,他们很可能正在使用基于树的模型而不是神经网络。除非他们正在构建一个重量级模型,比如在Zoom中模糊视频的背景,否则树的确定性本质使日常分类任务变得轻量级,使用与神经网络相同的通用方法。在许多现实世界的情况下,确定性建模比概率建模更自然也是有争议的。例如,树是预测用户是否会从电子商务网站购买商品的不错选择,因为用户自然会遵循基于规则的决策过程。它可能看起来像这样:我以前对这个平台有过良好的体验吗?如果是这样,请继续。我现在需要这个项目吗?我应该为冬天买太阳镜和泳裤吗?如果是这样,请继续。根据我的人口统计数据,这是我有兴趣购买的产品吗?如果是这样,请继续。这个项目是不是太贵了?如果没有,请继续。其他客户是否已将此产品评为让我放心购买的阈值?如果是这样,请继续。一般来说,人类遵循非常基于规则和结构化的决策过程。在这些情况下,概率建模是不必要的。总之,基于树的方法最好被认为是神经网络的缩小版本,用更简单的术语来处理特征分类、优化、信息流等。基于树的方法和神经网络在使用上的主要区别在于数据的确定性(0/1)和概率结构。结构化(表格)数据总是用确定性模型更好地建模。不要低估基于树的方法的力量。