大数据文摘来源:Medium编译:赵继科2018年medium上的一篇博文分析了数据科学家最需要的技能。反响热烈,在medium上获得超过11000个赞,并被翻译成多种语言,成为KD掘金队2018年11月最受欢迎的文章。2018年文章链接:https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db一年多过去了,2019年的作者也发布了最新的分析,让我们看看有什么变化。2018年的文章考察了对统计和通信等通用技能以及Python和R等技术的需求。软件技术的变化必须比通用技能要求的变化更快,因此本次更新仅包含技术部分。我们搜索了SimplyHired、Indeed、Monster和LinkedIn,以查看在美国的职位列表中哪些关键字与“数据科学家”同时出现。这一次,我们决定使用Request和BeautifulSoup包来获取职位列表,而不是手动搜索。LinkedIn爬行被证明要困难得多,因为查看确切数量的职位列表需要身份验证。我决定使用Selenium进行无头浏览。2019年9月,美国最高法院裁定LinkedIn败诉,允许其数据被抓取。尽管如此,在尝试了几次抓取之后,该帐户仍然无法访问,问题可能是由于刷新率限制造成的。无论如何,微软拥有LinkedIn,RandstadHoldings拥有Monster,RecruitHoldings拥有Indeed和SimplyHired。无论如何,LinkedIn的数据可能无法提供苹果去年和今年的职位对比。今年夏天,LinkedIn上的一些技术职位搜索词每周都在剧烈波动。这可能是由于他们对搜索结果算法进行了实验,试图通过使用自然语言处理来衡量搜索意图。相比之下,其他三个搜索网站在过去两年中为“数据科学家”提供的职位列表数量相对相似。由于这些原因,LinkedIn被排除在本文2019年和2018年的分析之外。对于每个求职网站,我们计算了每个关键字出现在该网站上的所有数据科学家职位列表的百分比。然后,对三个站点中每个关键字的这些百分比进行平均。同时,人工调查了新的搜索词以及看起来有希望的搜索词。2019年,没有新的搜索词达到5%的份额水平,这是以下结果中使用的截止指标。PyTorch职位需求翻倍我们用四种方法来看每个关键词的结果:方法一:对于每个求职网站,将包含关键词的列表数量除以每年包含数据科学家的搜索词总数。然后取三个站点的平均值。方法二:看2018-2019年这些房源平均规模变化的绝对值方法三:看2018-2019年这些房源平均规模变化的相对百分比完成上面第一步后,计算每个关键字相对于当年其他关键字的排名,然后计算每年排名的变化。查看带有直方图的前三个选项,然后我们将显示包含数据的表格并讨论结果。这是上面方法1的2019年图表,显示Python出现在近75%的列表中。这是上面方法2的图表,显示了从2018年到2019年工作列表中对技能的需求是如何变化的。AWS增长了5%。在2019年和2018年上市的公司中,占比分别为19.4%和14.6%。这是上面方法3的图表,显示了每年的百分比变化。2018年,PyTorch榜单上的职位数量平均增长了108.1%。以下是上表中以表格形式呈现的信息的结果,按2018年至2019年列出的工作比例在三个地点平均后的百分比变化排序。稳居榜首的Python,和落寞的R,在不到14个月的时间里,技术需求发生了不小的变化!1.获胜者Python仍然排名第一。它是迄今为止最常用的语言。与2018年相比,Python的使用量在几乎四分之三的列表中占据主导地位。SQL的使用量增长迅速。它几乎击败了平均得分第二高的R。如果这种趋势继续下去,SQL将很快成为真正的第二。优秀的深度学习框架被广泛使用。PyTorch是所有关键词中增幅最大的,Keras和TensorFlow也表现不错。Keras和PyTorch的排名都上升了4位,TensorFlow上升了3位。请注意,由于PyTorch的起始平均值较低,TensorFlow的当前平均值仍然是PyTorch平均值的两倍。数据科学家对云平台技能的需求越来越大。AWS的频率高达20%,而Azure大约为10%。Azure在排名中跃升了四位。2.失败者R的整体平均跌幅最大。根据其他研究,这种趋势并不奇怪。Python显然已经取代R成为数据科学的首选语言。尽管如此,R仍然很受欢迎,出现在55%的列表中。如果您熟悉R,请不要气馁,但如果您想掌握更受欢迎的技能,请考虑学习Python。许多Apache产品都很受欢迎,包括Pig、Hive、Hadoop和Spark。Pig下降了五位,比任何其他技术都多。Spark和Hadoop仍然是普遍需要的技能,但我认为有转向其他大数据技术的趋势。专有统计软件包MATLAB和SAS的使用急剧减少。MATLAB的排名下降了四位,而SAS从第六位下降到第八位。与2018年的平均水平相比,这两种语言都出现了显着下降。推荐一条学习路径如果你刚开始接触数据科学,我建议你关注需求和潜力不断增长的技术,一次专注于学习一种技能。以下是我推荐的学习路径:通用编程学习Python;学习pandas进行数据操作;使用Scikit-learn库学习机器学习;学习SQL以高效查询关系数据库;学习Tableau进行数据可视化;云计算平台方面,以AWS的市场占有率来看,是不错的选择;学习一个机器学习框架,Keras现在和TensorFlow紧密结合,所以是一个很好的起点,PyTorch也在快速发展。这是我的整体学习路径建议。拿走你需要的任何东西。相关报道:https://towardsdatascience.com/the-most-in-demand-tech-skills-for-data-scientists-d716d10c191dhttps://bdtechtalks.com/2019/11/25/ai-research-neural-networks-compute-costs/【本文为专栏组织大数据文摘原创翻译,微信公众号“大数据文摘(id:BigDataDigest)”】点此查看作者更多好文
