***第一个KDnuggets调查显示了数据科学家最常用的算法列表。这个列表包含了很多惊喜,包括最学术的算法和工业化的算法。在过去的12个月中,您在实际数据科学相关应用程序中使用了哪种方法/算法?这是基于844名选民。Top10算法及其投票者百分比分布如下:图1:数据科学家最常使用的Top10算法平均每个受访者使用8.1个算法,与2011年的类似调查相比,结果有了巨大的增长。对比2011年的数据分析/数据挖掘调查,我们注意到最常用的方法仍然是回归、聚类、决策树/规则和可视化。对于以下算法,相对增长最大的是(pct2016/pct2011–1):Boosting,从2011年的23.5%到2016年的32.8%,同比增长40%文本挖掘,从2011年的27.7%201135.9%to2016,up30%YoYVisualization,from38.3%in2011to48.7%YoYTimeSeries/SeriesAnalysis,from29.6%to37.0%in2016,YoYincrease25%Anomaly/偏差检测,从2011年的16.4%到2016年的19.5%,同比增长19%Ensemble方法,从2011年的28.3%到2016年的33.6%,同比增长19%支持向量机,从28.6%2011年到2016年的33.6%,同比增长18%回归,从2011年的57.9%到2016年的67.1%,同比增长16%***算法有新的增长2016年surveyList:K-NearestNeighbor,46%PrincipalComponentAnalysis,43%RandomForest,38%Optimization,24%NeuralNetwork-DeepLearning,19%SingularValueDecomposition,16%跌幅最大的是:AssociationRules,从28.6%在20112016年为15.3%,同比下降47%凸点成型,2011年为4.8%,2016年为3.1%,同比下降36%因素分析,2011年为18.6%,为2016年14.2%,同比下降24%生存分析,从2011年的9.3%下降到2016年的7.9%,同比下降15%确定使用算法。我们排除了北美(4.5%)和其他(3%)职业类型。表1:不同职业类型使用的不同算法我们注意到几乎每个人都使用监督学习算法。政府和行业数据科学家比学生和学术研究人员使用更多不同类型的算法,而行业数据科学家更倾向于使用元算法。接下来,我们按职业类型分析了Top10算法+深度学习的使用情况。表2:按职业类型划分的Top10算法+深度学习使用情况为了更清楚地看到差异,我们计算了特定职业类别的算法偏差与平均算法使用情况的比较,即偏差(ALG,类型)=使用(ALG,Type)/Use(ALG,All)图2:算法使用的职业偏好我们注意到,工业数据科学家更倾向于使用回归、可视化、统计、随机森林和时间序列。政府/非营利组织更倾向于使用可视化、主成分分析和时间序列。学术研究人员更倾向于使用主成分分析和深度学习。学生一般使用较少的算法,但主要是文本挖掘和深度学习。接下来,我们查看特定地区的参与度,代表整体KDnuggets用户:美国/加拿大,40%欧洲,32%亚洲,18%拉丁美洲,5%非洲/中东,3.4%澳大利亚/新西兰,2.2%自在2011年的调查中,我们把行业/政府放在一组,学术研究/学生放在第二组,计算算法对行业/政府的亲和度:所以亲和度为0的算法表示它的使用是平价的行业/政府和学术研究人员或学生。IG亲和度越高,表示该算法越被业界普遍使用,反之越接近“学术”。最“工业”的算法是:异常检测,1.61生存分析,1.39因子分析,0.83时间序列/序列,0.69关联规则,0.5和uplifting建模是最“工业”的算法,意外发现它的使用率极低-仅3.1%-是本次调查中算法中最高的。最学术的算法是:常规神经网络,-0.35朴素贝叶斯,-0.35SVM,-0.24深度学习,-0.19EM,-0.17下图显示了所有算法及其行业/学术亲和力。图3:KDnuggets民意调查:数据科学家最常使用的算法:行业VS学术界下表详细介绍了算法、两次调查中使用的算法百分比以及行业亲和力,如上文所述。下图显示了算法的详细信息,按列N:按用途对算法进行排名:算法名称,类型:S–supervised,U–unsupervised,M–meta,Z–other,用于2016年调查Algorithm%ofRespondentsChange在2011年调查中使用此算法的受访者百分比(%2016/2011%–1),行业亲和力(如上所述)表3:KDnuggets2016年调查:数据科学家使用的算法
