当前位置: 首页 > 科技观察

几种特征选择方法比较,哪种更好?

时间:2023-03-21 18:23:59 科技观察

本文转载自微信公众号“DataSTUDIO”,作者云多君。转载本文请联系DataSTUDIO公众号。在本文中,我们专注于基于评估机器学习模型对各种不可解释(黑盒)和可解释机器学习方法的特征重要性的特征选择方法。比较了CART、最优树、XGBoost和SHAP正确识别相关特征子集的能力。无论是使用原生特征重要性方法还是SHAP,XGBoost都无法清楚地区分相关和不相关的特征。另一方面,可解释方法可以正确有效地识别不相关的特征,从而为特征选择提供非常好的性能。特征选择在物联网时代,每天都在以越来越快的速度创建和收集数据,从而产生了具有与每个数据点关联的数万个特征的数据集。虽然许多机器学习和人工智能方法具有很强的预测能力,但在这样的高维数据集中,模型在理解各种特征的相对质量方面也会变得复杂。事实上,训练模型时并不是所有的高维数据集都需要用到,大部分甚至全部的预测性能都可以通过使用少量的特征来训练模型来获得。特征选择(featureselection)是从所有的特征中选择对模型有帮助的有意义的特征,从而避免必须将所有的特征都导入到模型中进行训练的情况。我们一般有四种方法可以选择:过滤、嵌入、包装和降维。其中,打包方式和嵌入方式都依赖于算法本身的选择,即基于评估机器学习模型的特征重要性,并根据重要性得分知道哪些特征与做出预测最相关.这也是最常用的特征选择方法之一。特征选择的重要性无需过多描述,因此模型计算出的重要性得分能否反映实际情况至关重要。错误地高估不相关特征的重要性会导致错误的发现,而低估相关特征的重要性会导致我们丢弃重要特征,从而导致模型性能不佳。此外,XGBoost等黑盒模型提供了更高级的预测性能,但其内在原理不易被人类理解,需要依赖特征重要性分数或SHAP等可解释性方法来研究其对特征选择的影响。的行为。基于评估者计算特征重要性的原理前面提到,最常用的特征选择方法之一是基于评估机器学习模型的特征重要性,评估机器学习模型试图量化每个特征的相对重要性来预测目标变量。.特征重要性是通过测量模型中每个特征的使用带来的增量性能改进并在整个模型中汇总这些信息来计算的。我们可以使用它来识别被认为不重要或不重要的特征,并将它们从模型中删除。弱点:任何特征选择方法只有在准确的情况下才有用。CART树特征选择的优点和缺点基于树的模型因其强大的功能和可解释性而成为机器学习中最常用的方法之一。CART等单树模型是完全可解释的,因为可以通过观察最终决策树中的拆分轻松遵循其预测逻辑。然而,CART使用贪婪的启发式方法训练模型,每次形成一棵树,这有很多缺点。首先,这可能导致树远非全局最优,因为在贪婪启发法中任何给定点的最佳分割已被证明在树的未来增长的背景下不是最优的。其次,由于CART算法采用的是每一步都穷举所有特征来进行分裂选择的方法,因此倾向于选择分裂点较多的特征。由于特征的选择很可能会偏向于那些具有大量唯一值的特征,贪心算法可能会导致错误地选择靠近树根的用于分割数据的特征,而这些特征往往是最重要的。基于树的集成学习器基于树的集成方法,例如随机森林和梯度提升(例如XGBoost),通过集成大量单树模型的预测来提高CART的性能。这确实带来了更先进的性能,但以模型可解释性为代价,因为人类几乎不可能理解成百上千个树模型之间的交互和其他行为。因此,通常需要依靠可变重要性方法来理解和解释这些模型的工作原理。这些模型在计算特征重要性时可能具有一定的敏感性,特别是对于具有许多潜在分裂点的特征,以及包含一些容易出现偏差问题的数据的特征。SHAPSHAP是一种最新方法,它统一了许多旨在解决集成树模型偏差的早期方法,并使用博弈论方法来理解和解释每个特征如何驱动最终预测。由于SHAP的稳健性和偏差解决能力,它很快被广泛用于解释黑盒模型和执行特征选择。OptimalTrees如前所述,与集成方法相比,CARTs的预测性能较差,但集成方法被迫牺牲个体决策树的可解释性来获得更好的预测性能,这迫使从业者在性能和可解释性之间进行折衷选择。最优树利用混合整数优化一步构建全局最优决策树。由此产生的模型不仅保持了单个决策树的可解释性,而且达到了与黑盒模型相同的高性能。由于该方法考虑同时优化树中的所有拆分,而不是贪婪地逐个优化,我们可以预期拆分选择不太容易受到与CART相同的偏差问题的影响。对比结果表明,SHAP和XGBoost总是低估关键特征的重要性,而对不相关的特征赋予显着的重要性,在高噪声下不能完全区分相关和不相关的特征。显然这些不能用于特征选择或解释,否则会产生严重后果。另一方面,可解释的单树模型擅长识别与预测无关的特征,将它们的重要性降低到零,同时需要相对较少的训练数据。与CART树相比,最优树侧重于全局优化,因此可以更快地识别不相关的特征,并且对特征选择偏差不敏感。可解释的单树模型在去除无关特征方面是完全透明和有效的;当使用最优树时,这通常可以在几乎没有性能成本的情况下完成。参考:ComparinginterpretabilityandexplainabilityforfeatureselectionInterpretableAICambridge,MA02142,JackDunn等。