当前位置: 首页 > 科技观察

数据科学和机器学习工具和语言的最新更新

时间:2023-03-16 14:31:25 科技观察

第18届年度KDnuggets软件投票再次得到了分析、数据科学社区和软件生产商的热情参与。与去年相似,约有2,900人参与了投票。近年来,Python使用率的增长速度一直快于R,今年,Python终于以微弱优势超过R(52.6%对52.1%)。然而,最大的惊喜应该是深度学习工具的广泛共享和使用。2017年深度学习的使用率为32%,而2016年为18%,2015年为9%。谷歌Tensorflow迅速成为深度学习平台的领头羊,以20.2%的使用率领跑其他平台。它去年的使用率只有6.8%,但今年却闯入了使用率前10的工具。2014年,分析、数据挖掘和数据科学的主要工具有四种:R、Python、SQL和SAS,2017年有五种,分别是Python、R、SQL、Saprk和Tensorflow。RapidMiner在数据挖掘/数据科学领域最受欢迎的通用平台榜单中名列前茅,使用率约为33%,与2016年几乎完全相同。我们注意到许多软件供应商鼓励他们的用户为自己投票,但所有软件供应商都有平等的机会这样做,因此这并不违反KDnuggets准则。我们没有看到任何机器自动投票或只投票给一种工具的例子。Spark增长到23%左右,在Hadoop系统中保持前10的领先地位。除了TensorFlow之外,另一个新工具Anaconda也位居榜首,使用率为22%。Toptoolsusedinanalytics,datascience,andmachinelearning表1:2015年至2017年KDnuggets在分析/数据科学领域的投票结果比较500.在上表中,“2017%Usage”是使用该工具的投票者百分比今年,“%Change2017Vs2016”是与2016年使用率的对比,这里绿色和红色高亮表示变化超过5%的情况,“%alone”是只使用当前工具。每个选民平均使用的工具数量为6.1,与2016年的6.0相比变化不大。比较2016年KDnuggets分析/数据科学投票结果,新进入前11名的是Anaconda和Tensorflow。按地区划分的参与情况如下:?美国/加拿大(41.5%)?欧洲(35.5%)?亚洲(10.1%)?拉丁美洲(6.5%)?非洲/中东(3.8%)?澳大利亚/新西兰(2.7%))调查中使用率超过2%的热门新工具包括?Keras(9.5%)?PyCharm(9%)?MicrosoftR(4.3%)?IBMDSX(3.0%)?PyTorch(3.0%)?Teradata(2.4%)下表列出了2017年使用增长率超过20%,使用率至少为2%的工具,包括5个深度学习工具和4个微软工具。表2:使用量增长最快的分析/数据科学工具DataRobot从2016年的0.5%增长到2017年的1.9%,尽管使用量不到2%。我们注意到,在2016年使用率至少为2%的工具中,有22个在增加,27个在下降。这表明数据科学平台市场仍未整合。下表显示了在2016年使用率至少为2%,但在2017年使用率至少下降了20%的工具。Turi和Salford最近被收购,Perl和Octave被Python和R击败,RapidInsight可能没有提醒它的用户自己投票,QlikView可能已经输给了Tableau,C4.5可以算是过时的技术。有趣的是,在Hadoop系统的开源工具中,MLlib等免费开源分析/数据挖掘工具的使用量也在减少。表3:使用率下降最快的分析/数据科学工具深度学习工具今年深度学习工具的使用率从2016年的18%和2015年的9%跃升至32%。谷歌Tensorflow是主导平台,取代了去年的领导者Theano/Pylearn2。顶级工具是:?Tensorflow,20.2%使用率?Keras,9.5%?Theano,5.8%?其他深度学习工具,4.8%?MirrosoftCNTK,3.4%?Caffe,3.1%?PyTorch,3.0%?DL4J2.2%?MxNet,1.8%?Torch,1.2%?Lasagne,0.9%Hadoop/大数据工具我们简化了Hadoop体系下Hadoop/Spark工具的分类。商业/开源工具,Hadoop下的SQL和Spark占比33%。这比2016年的39%略有下降,当时许多工具被归类为大数据工具。2015年Spark/Hadoop工具使用率为29%。2017年大数据工具的使用情况为:?Spark,22.7%?Hadoop开源工具,15.0%?HadoopSQL,10.3%?Hadoop业务工具,7.6%Python、Java、Unix、scalapopular和C/C++、Perl、Julia、F#、Clojure和Lisp下降。以下是投票排名最高的编程语言:?Python,52.6%使用率(2016年为45.8%)?R,52.1%(2016年为49.0%),上升6%?SQL,34.9%(2016年为49.0%),下降2%?Java,13.8%(16.8%),下降18%?UnixShell/AWK/GAWK,9.6%(10.4%),下降7%?C/C++,6.3%(7.3%),下降13%%?Perl,1.7%,(2.3%),下降27%?Julia,1.1%(1.1%),保持不变Python学习竞争对手Julia,继续增长,但Julia的使用率保持惊人的平稳变化。