本文分析了Simplilearn在国外KDnuggets论坛的统计结果和国内某知名招聘网站的招聘需求信息,详细介绍了从事数据科学工作需要掌握的技能和工具,以及作为目前的数据科学工作,哪些技能和工具更适合从业者学习。国外的KDnuggets网站曾经发起过一次民意调查,提出了以下问题:1)你目前有哪些与数据科学/机器学习相关的技能?2)你想学习或深造什么技能?KDnuggets调查结果分析本次投票共收到1500多张有效答卷,样本足够大,由此做出的推论更有意义。本次调查只有两个问题,我们将使用这两个问题的结果:mastered&plannedtolearn两个指标进行分析。调查结果显示,平均每人拥有10项技能,平均每人希望学习或提升6.5项技能。下面的图1显示了主要发现,x轴显示已有技能,对应于第一个调查问题的结果,y轴显示所需技能,对应于第二个调查问题的结果。每个圆圈的大小与拥有该技能的人的比例成正比,而颜色取决于需求/已经的比例(红色高-大于1,蓝色低-小于1)。我们注意到此图中的两个主要类别。图表右侧蓝色虚线矩形中的第一类包含要求/拥有比率小于1的技能,其中超过40%。我们称这些为核心数据科学技能。其中,最需要增加或改进的技能是机器学习(41%)和Python(37%)。增长最少的技能是Excel——只有7%的人想增加或提高他们的Excel技能。第二个集群,图1左边红框标记的,包括目前不太流行的技能(%Have<30%),但使用比例可能在增加,需求/存在比超过1.我们称之为新兴数据科学技能。有趣的是,尽管人们认为Hadoop正在走下坡路,但本次调查中想要学习Hadoop的人比他们已经知道的要多,因此它可能仍在流行。虽然Julia的需求/存在比高达3.4,但我们并没有将其纳入热门/新兴技能,因为它只占总数的2%,太低了,也没有有效的数据支持。剩下的技能分为第三类,包括XGBoost、软件工程、Java、MATLAB、SAS。虽然比例在10%到30%之间,但利用率不低,但并没有增加。需求/现有比例<1。具体技能排名如下图,按照现有比例和需求比例排序展示。我们可以发现,当前和有抱负的数据科学家最抢手的技能是深度学习、Tensorflow、机器学习和Python。根据调查,我们发现有一些核心的、稳定的数据科学技能,有的使用率很高,有的是目前非常重要和热门的技能。技术技能:计算机科学1.教育数据科学家受过高等教育,高达88%的人至少拥有硕士学位,46%的人拥有博士学位。尽管有例外,但通常需要非常强大的教育背景才能发展成为数据科学家所需的知识深度。要成为数据科学家,您可以获得计算机科学、社会科学、物理科学和统计学的学士学位。最常见的研究领域是数学和统计学(32%),其次是计算机科学(19%)和工程学(16%)。从这两个项目中的任何一个获得学位都将为您提供处理和分析大数据所需的技能。完成学位课程后,并不意味着您已经成功。事实上,大多数数据科学家拥有硕士或博士学位,他们还通过在线培训学习特殊技能,例如如何使用Hadoop或查询大数据。因此,通过攻读数据科学、数学、天体物理学或任何其他相关领域的硕士学位课程。使用在大学学到的技能来轻松过渡到数据科学。除了课堂学习,您还可以通过构建应用程序、创建博客或探索数据分析来练习您在课堂上学到的知识,从而学到更多。如CSDN、Github、Kaggle等。2.R编程过去,R语音通常被首选作为数据科学的分析工具。R是专门为数据科学需求而设计的统计学家。你在数据科学中遇到的任何问题都可以使用R来解决。事实上,43%的数据科学家现在正在使用R来解决统计问题。然而,R有一个陡峭的学习曲线。相对于现在很火的python,R很难学,特别是如果你已经了解这门编程语言的话。然而,互联网上有大量资源可以帮助学习,对于有抱负的数据科学家来说,这是一个很好的资源。3.Python编码不同于Java、Perl或C/C++,Python是数据科学工作中最常用的编码语言。对于数据科学家来说,Python是一种很棒的编程语言。这就是为什么40%的调查受访者表示他们使用Python作为他们的主要编程语言。由于其多功能性,用户可以使用Python完成数据科学过程中涉及的几乎所有步骤。它可以获取各种格式的数据,消费者可以轻松地将SQL表导入到代码中。可以创建数据集,您需要的任何类型的数据集都可以在Google上找到。4、Hadoop平台虽然Hadoop不是必须的,因为它是一个大数据平台,但在很多情况下,它是首选。使用Hive或Pig的经验也是一个强项。熟悉AmazonS3等云工具也可能有所帮助。在一项针对3,490名数据科学工作者的研究中,Hadoop被49%的数据科学家评为第二重要的技能。作为一名数据科学家,你可能会遇到这样一种情况,你的数据量超过了你系统的内存,或者你需要将数据发送到其他服务器,这时候Hadoop就派上用场了。用户可以使用Hadoop来快速将数据传输到各种服务器。同时,Hadoop可用于数据探索、数据过滤、数据采样和汇总等。5.数据库/SQL编码尽管NoSQL和Hadoop已成为数据科学的重要组成部分,但仍然需要能够在SQL中编写和执行复杂的查询。SQL(结构化查询语言)是一种编程语言,可以执行诸如从数据库中添加、删除和提取数据等操作。它还可以执行分析功能和转换数据库结构。成为一名数据科学家需要精通SQL。这是因为SQL是专门为访问、通信和操作数据而设计的。它具有简洁的命令,可以节省时间并减少执行困难查询所需的编程量。6.ApacheSparkApacheSpark正在成为全球非常流行的大数据技术。就像Hadoop一样,是一个大数据计算框架。唯一的区别是Spark比Hadoop更快。这是因为Hadoop读取和写入磁盘,这使其速度较慢,但??Spark将其计算缓存在内存中。Spark专为数据科学而设计,可帮助更快地运行其复杂算法。在处理大量数据时,有助于分散数据处理,节省时间。它还可以帮助数据科学家处理复杂的非结构化数据集。它可以在一台或多台计算机上使用。Spark使数据科学家能够防止数据科学中的数据丢失。Spark的优势在于它的速度和平台,这使得执行数据科学项目变得容易。使用Spark,您可以进行从数据采集到分布式计算的分析。7.机器学习和人工智能大量数据科学家并不精通机器学习领域和技术。这包括神经网络、强化学习、对抗性学习等。如果你想从其他数据科学家中脱颖而出,你需要了解机器学习技术,如监督机器学习、决策树、逻辑回归等。这些技能将帮助您根据关键的组织结果预测解决不同的数据科学问题。数据科学需要在机器学习的不同领域应用技能。Kaggle在其一项调查中显示,一小部分数据专业人员拥有高级机器学习技能,如监督机器学习、无监督机器学习、时间序列、自然语言处理、异常值检测、计算机视觉、推荐引擎、可行性分析、强化学习和对抗性学习。8.数据可视化商业世界经常产生大量数据。此数据需要转换为可理解的格式。人们自然而然地比原始数据更好地理解图表形式的图片。作为数据科学家,您必须能够借助ggplot、BI、Matplottlib和Tableau等数据可视化工具来可视化数据。这些工具将帮助您将项目中的复杂结果转化为易于理解的形式。比如很多人不理解序列相关或者p值等比较专业的词所表达的意思。您需要直观地向他们展示这些术语在您的结果中代表什么。数据可视化使组织能够直接处理数据以快速获得洞察力,从而帮助他们抓住新的商机并保持竞争优势。9.非结构化数据数据科学家能够处理非结构化数据是至关重要的。非结构化数据是不适合数据库表的未定义内容。示例包括视频、博客文章、客户评论、社交媒体文章、视频源、音频等。它们是复杂的文本、音频组合在一起。因为这些类型的数据没有被简化,所以很难对它们进行排序。由于非结构化数据的复杂性,大多数人将其称为“暗分析”。使用非结构化数据可以帮助您发现对决策有用的见解。作为数据科学家,您必须具备理解和操作非结构化数据的能力。非技术技能10.求知欲“我没有特别的才能。我只是好奇。”-艾尔伯特爱因斯坦。好奇心可以定义为获取更多知识的渴望。作为数据科学家,您需要能够提出有关数据的问题,因为数据科学家花费大约80%的时间来发现和准备数据。这是因为数据科学领域是一个快速发展的领域,数据科学家必须学习更多才能跟上步伐。数据科学家需要通过在线阅读内容和阅读有关数据科学趋势的相关书籍来定期更新知识。数据科学家必须能够理解如何理解所有这些数据,而不是被互联网上传播的庞大数据量所淹没。好奇心是成功成为数据科学家所需的技能之一。例如,他可能不太了解正在收集的数据,但好奇心使他能够筛选数据以找到答案和其他见解。11.商业头脑要成为一名数据科学家,你需要对你所从事的行业有深入的了解,并且知道你的公司正在努力解决哪些业务问题。在数据科学中,除了确定企业应该利用其数据的新方式外,它还涉及能够辨别哪些问题对企业至关重要。为此,必须了解所解决的问题如何影响业务。12.沟通技巧寻找强大数据科学家的公司正在寻找能够清晰流畅地将他们的技术发现转化为非技术团队(例如市场营销或销售)的人。除了了解非技术同事正确管理数据的需求外,数据科学家还必须通过为他们提供定量洞察力来帮助他们做出业务决策。除了使用贵公司理解的相同语言外,您还需要使用数据讲故事进行交流。作为一名数据科学家,了解如何围绕数据创建故事情节以便任何人都易于理解是至关重要的。例如,呈现数据表不如以讲故事的方式分享来自该数据的见解有效。讲故事将帮助您将您的发现正确地传达给您的雇主。沟通时,注意将结果和价值嵌入到你的分析数据中。大多数企业主不想知道您在分析什么,但对它如何对他们的业务产生积极影响感兴趣。学会专注于通过沟通和建立持久的关系来传递价值。13.团队合作数据科学家不能单独工作。必须与公司高管一起制定战略,与产品经理和设计师一起创造更好的产品,与营销人员一起创造更好的转换活动,创建数据管道并改善与客户和服务器软件开发人员的工作流程。事实上,数据科学家将不得不与公司中的每个人一起工作,甚至是客户。本质上,数据科学家将与团队成员合作开发数据产品,了解解决问题所需的业务目标和数据。人们需要知道解决问题的正确方法、解决问题所需的数据,以及如何将结果转换和呈现为每个相关人员都能理解的东西。数据分析某知名招聘网站的招聘信息相比国外情况如何,国内情况如何?数据分析相关工作需要哪些工作技能?为此,特意爬取了某招聘网站数据分析相关职位的相关资料进行分析,探寻国内数据分析岗位的技能要求。该工具提取并制作成词云图。字体越大,工具颜色越深,出现的频率越高,说明有更多的公司希望招聘具备该技能的员工。可以清楚地看到,python是最苛刻的技能之一,其次是SQL、Spark、Hadoop、Excel等。根据工具及其词频,绘制成条形图:Python作为近年来最流行的编程语言,在数据科学领域也有着举足轻重的作用。在所有招聘数据分析工作者的岗位中,有多达1329家公司肯定要找会用python的员工。R作为传统的统计分析编程软件,排在第六位,职位需求只有不到800,远不及python的需求。同为编程语言的Hadoop和Spark分列第二和第四位,需求量都在1000左右,可见当前大数据方向在数据科学中的重要性,市场对大数据人才的需求巨大数据分析技能。需要。Java和C语言作为非传统的数据处理、清洗、分析编程软件,在该领域也有大量的需求,这也说明编程能力是数据科学领域的重要能力。数据库方面,Hive、Hbase、MySQL、Oracle出现频率较高。sql作为一种数据库编程语句,不属于一个独立的软件。其实还包括包括MySQL和Oracle在内的一些数据库,所以MySQL和Oracle其实对人才的市场需求会更高。Excel、SAS、SPSS也是很多人在数据分析工作中使用的工具。目前,市场对具备此类技能的人才需求量很大。
