在“数据为王”的今天,越来越多的人对数据科学感兴趣。数据科学家离不开算法的使用。那么,数据科学家最常用的算法是什么?近日,知名数据挖掘资讯网站KDnuggets策划了一项十大算法的调查。本次调查对数据科学家常用的算法进行了排名,找出了最“工业”和最“学术”的算法,并详细介绍了这些算法在过去5年(2011~2016)的变化。本次调查的结果基于844名受访者的投票。KDnuggets总结了十大算法及其投票份额如下:图1:数据科学家使用的十大算法和方法。请参阅文章末尾的所有算法和方法的完整列表。调查显示,受访者平均使用8.1种算法,较2011年同类调查大幅增加。对比2011年数据分析/数据挖掘的投票算法,我们注意到,流行的算法仍然是回归算法、聚类算法、决策算法树和可视化。相对而言,增长最大的是以下算法(pct2016/pct2011-1):Boosting,从2011年的23.5%增长到2016年的32.8%,同比增长40%Textmining,从2011年的27.7%2011%到2016年35.9%,同比增长30%可视化,从2011年的38.3%到2016年的48.7%,同比增长27%时间序列分析,从2011年的29.6%到2016年的37.0%,同比增长25%异常/偏差检测,从2011年的16.4%到2016年的19.5%,同比增长19%集成方法,从2011年的28.3%到2016年的33.6%,同比增长19%支持向量machine,从2011年的28.6%到2016年的33.6%,同比增长18%回归算法,从2011年的57.9%到2016年的67.1%,同比增长16%Yes:K-最近邻(KNN)、46%主成分分析(PCA)、43%随机森林算法(RandomForests,RF)、38%优化算法(Optimization)、24%神经网络-深度学习(Neuralnetworks-DeepLearning)),19%单数ar值分解(SingularValueDecomposition,SVD),16%下降的算法有:关联规则,从2011年的28.6%下降到2016年的15.3%,同比下降47%增量建模(Upliftmodeling),从2011年的4.8%到2016年的3.1%,同比下降36%因素分析(FactorAnalysis),从2011年的18.6%到2016年的14.2%,同比下降了24%SurvivalAnalysis,从2011年的9.3%下降到2016年的7.9%,同比下降15%下表展示了不同算法类型的使用情况:监督学习、非监督学习、元分析等算法类型。我们排除了NA(4.5%)和其他(3%)算法。表1:按行业类型划分的算法使用情况我们注意到,几乎所有行业都在使用监督学习算法。政府和工业界的数据科学家比学生或学术界使用更多不同类型的算法,而工业数据科学家更有可能使用元算法。接下来,我们按行业类型分析十大深度学习算法的使用情况。Table2:Top10Algorithms+DeepLearningusagebyEmploymentType表2:Top10Algorithms+DeepLearningusagebyEmploymentType为了使差异更加显着,我们计算了与特定行业类型相关的平均算法使用率,并设计了算法作为偏差(Alg,类型)=使用(Alg,类型)/使用(Alg,所有)-1。图2:按行业划分的算法使用偏差我们注意到,行业中的数据科学家更倾向于使用回归算法、可视化、统计算法、随机森林算法和时间序列。政府/非营利组织更倾向于使用可视化、主成分分析和时间序列。学术研究人员更喜欢主成分分析和深度学习。学生普遍使用较少的算法,但他们使用更多的文本挖掘和深度学习。接下来,我们看看代表整个KDnuggets访问者的区域参与情况。选民的地理分布如下:北美洲、40%欧洲、32%亚洲、8%拉丁美洲、5.0%非洲/中东、3.4%澳大利亚/新西兰、2.2%与2011年调查一样,我们结合行业/governmentintothesameAgroup将学术研究人员/学生组合成第二组,并计算算法对行业/政府的“亲密度”:亲和力为0的算法被行业/政府和学术研究人员/学生平等使用.IG亲密度征集表示算法更“工业化”,越往下越“学术化”。其中,最“工业化”的算法是:Upliftmodeling,2.01AnomalyDetection,1.61SurvivalAnalysis,1.39FactorAnalysis,0.83Timeseries/Sequences),0.69AssociationRules,0.5虽然增量建模再次成为最“工业化”》算法,没想到它的使用率这么低:区区3.1%,在本次调查中,它是使用最多的算法。最“学术”的算法是:神经网络-正则,-0.35朴素贝叶斯,-0.35支持向量机(SVM),-0.24深度学习(DeepLearning),-0.19***期望算法(EM),-0.17下图显示了所有算法及其在工业界/学术界的熟悉程度:图3:KdnugetsSurvey:数据科学家使用的流行算法:工业界与学术界下表包含算法的详细信息、2016年和2011年使用这些算法的调查受访者百分比、变化(%2016/%2011-1)和行业亲和力,如上所示。3:KDnuggets2016调查:DataS使用的算法cientists下表包含每个算法的详细信息:N:按使用情况排名算法:算法名称类型:类型。S-Supervised,U-Unsupervised,M-Meta,Z-Other,2016%used:2016年调查中使用该算法的受访者百分比2011%used:2011年调查中使用该算法的受访者百分比%Change:Change(%2016/%2011-1)IndustryAffinity:行业亲和力(文中提到)
