数据科学一直是一个引人注目的领域,尤其是对于具有计算机科学、统计学、商业分析、工程管理、物理学、数学等背景的年轻人来说。但雾里看花,还看不清。人们总是认为数据科学背后有很多神秘的地方,他们认为不仅仅是机器学习和统计。多年来,我与许多专业人士讨论过如何进入数据科学领域。为什么总是围绕数据科学大肆宣传?帮助人们进入这个领域的还是统计学和机器学习吗?以后还会这样吗?两个月前,我刚从研究生院毕业就以数据科学家的身份加入了媒体巨头ViacomCBS。除了研究助理和实习外,没有全职行业经验。我的工作职责包括ML产品的构思、开发和生产,我使用了本文列出的大部分工作方法。希望本文能对所有有兴趣进入该领域的数据科学家和机器学习工程师有所帮助。为什么总是有关于数据科学的炒作?几乎每个人都想进入数据科学领域。几年前,数据科学领域存在供需问题:自从DJPatil博士和JeffHammerbacher博士创造了数据科学一词后,对数据科学家的需求量大幅增加,相关人才似乎在供不应求。2020年,情况有所好转。受过正规或MOOC教育的数据科学爱好者数量增加,对人才的需求增加,但程度不及前者。该术语涵盖了一个越来越广泛的领域,涵盖了进行数据科学工作所需的大部分功能。每个人都在谈论数据科学,但大多数人并没有。我认为数据科学总是被炒作有以下几个原因:前沿发展高工作满意度高业务影响巨大的数据生成增加数据科学家头衔背后的神秘感数据科学学位许多工作网站将其评为最热门的工作(过去3年)被Glassdoor评为美国最热门的工作)自称数据科学家?总有人会这样介绍自己,所以让我给你介绍一下这个行业的现状,说点实话。由于工作需求的增加和DataScientist这个光鲜的头衔,许多公司开始将ProductAnalyst、BusinessIntelligenceAnalyst、BusinessAnalyst、SupplyChainAnalyst、DataAnalyst和Statistician的头衔改为DataScientist,因为很多人离开的原因他们的工作是申请数据科学家职位,但实际上这些公司往往提供相同的工作内容。许多人会因为职位名称中的细微变化而感到受到尊重。因此,各家公司都在以同样的方式更换职位名称,让自己的职位更加耀眼、更加令人向往,比如数据科学家-分析方向、产品数据科学家、数据科学家-成长方向、数据科学家-供应链方向、数据科学家Scientist-可视化方向或者数据科学家,还有什么不能加的?大多数接受教育或在线培训的人都有一种误解,认为所有数据科学家都会构建复杂的机器学习模型,但这种看法并不完全正确。这就是我刚开始攻读应用数据科学硕士学位时的想法,认为大多数数据科学家都在做机器学习。但是当我开始在美国实习和就业的时候,我才渐渐明白了其中的道理。推动人们走向数据科学的力量实际上源于围绕人工智能及其商业影响的炒作。TheNextGenerationofDataScientists-MachineLearningin2020,对于那些想作为数据科学家进行应用机器学习的人-ML轨道(之所以这样命名是因为它不是数据科学家-分析轨道),但没有博士学位,除了人人都能做到的将机器学习应用于数据集之外,还有更多的选择。我将从我自己的经验中分享一些可能对您的面试有所帮助的要点:分布式数据处理/机器学习:使用ApacheSpark、ApacheHadoop、Dask等的实践经验表明您可以大规模创建数据/机器学习管道.有上述任何技术经验者优先,但我仍然推荐ApacheSpark(使用Python或Scala)。MachineLearning/DataPipelinesinProduction:如果你能亲身体验ApacheAirflow就好了。ApacheAirflow是用于创建数据和机器学习管道的标准开源作业编排工具。它已经在行业中使用,因此建议您学习并围绕它做一些项目。DevOps/Cloud:在数据科学领域,很多人过于忽视DevOps。如何在没有基础设施的情况下构建ML管道?构建在本地计算机上运行的笔记本或代码并不像我们在课程中所做的那样容易。您编写的代码应该跨您或其他人可能在您的团队中创建的基础设施进行扩展。许多公司可能还没有到位的ML基础架构,并且正在寻找人员入门。即使在课程作业中,熟悉Docker、Kubernetes以及使用Flask等框架构建ML应用程序也应该是标准做法。我喜欢Docker,因为它的可扩展性、构建基础架构映像以及在Kubernetes集群上的服务器/云上复制它们。数据库:数据库和查询语言的知识是必须的。尽管SQL被严重忽视,但它仍然是任何云平台或数据库上的行业标准。开始在leetcode上练习复杂的SQL将帮助你完成DSprofiles中的一些编码面试部分,因为你将负责在进行预处理时从仓库导入数据,这将简化你在运行ML模型处理之前的预处理和。使用SQL将数据传输到模型中时,大多数特征工程都可以随时随地完成,但很多人都忽略了这一点。编程语言:推荐用于数据科学的编程语言有Python、R、Scala和Java,了解其中任何一种都可以帮助你解决问题。对于机器学习类的工作,面试过程中会有现场编码,所以你需要在你觉得有效率的地方练习——Leetcode或Hackerrank等。今天,除非你有幸在行业中有一些重要的人脉(网络很重要!)或者在你的署名下有出色的研究记录,你仍然不能在不了解机器学习或统计学的情况下进入数据科学领域。学习机器学习。业务应用和领域知识通常需要工作经验,但这种经验只能在相关行业实习才能提前获得。我也曾站在数据科学的十字路口,现在我即将见证下一代数据科学家进入该领域的必要性。这个行业瞬息万变,需要您不断调整自己以跟上它的步伐。本文转载自微信公众号“读芯”,可通过以下二维码关注。转载本文请联系核心阅读公众号。
