原文:MohammedMJubapu译者:机器学习算法与Python实战(公众号ID:tjxj666)英文:https://www.linkedin.com/puls...数据工程师最受市场欢迎今天的工作之一。数据无处不在,被认为是新时代的能源。公司从不同的来源产生海量数据,数据工程师的任务是组织数据信息的收集、处理和存储。但是,要成为一名数据工程师,您需要一些出色的技能,例如数据库、大数据、ETL和数据仓库、云计算和编程语言。但问题来了,你是想拥有所有这些技能,还是想使用所有的工具?为了让这一切变得更容易,让我们借此机会直接深入了解数据工程就业市场的最新技能,这些技能肯定会增加您现有的职业生涯或帮助您开始数据工程之旅。1-精通一门编程语言是的,编程语言是数据工程必备的技能。大多数职位要求至少精通一种编程语言。ETL或数据管道框架需要这些语言。通用编程语言是一般掌握数据工程和管道所需的核心编程技能。例如,Java和Scala用于在Hadoop上编写MapReduce作业。Python是数据分析和管道的流行选择,而Ruby也是广受欢迎的应用程序粘合剂。2-Python是最受关注的技能Python!Python!Python!是的,大约70%的工作简介都将Python作为必备技能,其次是SQL、Java、Scala和其他编程技能,如R、.Net、Perl、Shell脚本等。3-ApacheSpark数据处理层数据处理是将数据收集和处理成可用的所需形式。ApacheSpark在数据处理层排名第一,其次是AWSLambda、Elasticsearch、MapReduce、Oozie、Pig、AWSEMR等。ApacheSpark是一个强大的开源框架,提供交互处理、实时流处理、批处理、和内存处理,具有非常快的速度、标准接口和易用性。4-RestAPI通常用于数据收集对于任何需要分析或处理的数据,首先需要将其收集或摄取到数据管道中。RESTAPI是用于此目的的常用工具,其次是Sqoop、Nifi、AzureDataFactory、Flume、Hue等。5-数据缓冲在ApacheKafka中最常见数据缓冲是数据工程框架中的关键部分,在该框架中临时存储数据,同时将数据从一个地方移动到另一个地方以容纳大量数据。ApacheKafka是一种常用的分布式数据存储,针对实时摄取和处理流数据进行了优化。流数据是由数以千计的数据源不断生成的数据,通常同时发送数据记录。流媒体平台需要处理这种不断涌入的数据,并按顺序和增量方式对其进行处理。此类别中的其他工具包括Kinesis、Redis缓存、GCPPub/Sub等。6-存储数据——需要存储SQL或NoSQL数据以进行处理、分析或可视化,以生成有价值的结果。数据存储可以采用数据仓库、Hadoop、数据库(RDBMS和NoSQL)、数据集市的形式。其次是SQL技能,如Hive、AWSRedshift、MongoDB、AWSS3、Cassandra、GCPBigQuery等。7-使用Tableau或PowerBI进行数据可视化数据可视化是以图形、图表或其他视觉格式呈现数据或信息。它传达数据与图像的关系。Tableau和PowerBI在竞争中处于领先地位,紧随其后的是SAPBusinessObjects、Qlik、SPSS、QuickSight、MicroStrategy等。8-数据工程云平台对于不同的数据工程工具集,有不同的基于云或内部部署的平台。列出的典型代表有Hadoop、谷歌云平台、AWS、Azure和Apprenda。嗯,这绝不是需要精通所有的技能和工具,但通常需要掌握每个数据管道框架类别中的至少一种,比如云平台的GCP,开发的Python,数据处理的ApacheSpark,数据收集RestAPI用于数据缓冲,ApacheKafka用于数据缓冲,Hive用于数据存储,PowerBI用于数据可视化。
